王文浩1997-CSDN博客

原创目标检测-温故而知新

RCNN->Faste RCNN ->Faster RCNN->mask rcnnyolov1->yolov2->retinanet(focal loss)->yolov3faster-rcnn 去掉了selective search ，可以端到端的进行训练，虽然最终还是分4步进行训练的话精度会提升。即网络最后的classification是对所有anchor框定的Region进行识别分类，会严重拖累网络的分类性能，难以收敛。yolo有类似rpn的机制，那就是最后

2021-10-22 22:53:46 2106

原创多标签分类问题的损失函数与长尾问题

背景麻省理工学院研究团队发表在ICML2020的《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》表示 imagenet数据集中有约20%的数据都是至少有2个标签谷歌发布了多标签数据集Open image dataset主要是利用谷歌自己的多标签模型打标之后，然后人工修改一部分。常用方案bceloss将多标签问题针对每一种类别转化为多个二分类问题常见问题1）长尾问题，正负样本不平

2021-10-28 15:49:07 3681

原创立体视觉的坐标变化2D-3D，2D-2D

2D-3D三维视觉中2D-3D的变化基本就是Y=K[R|T]X,X,Y为齐次坐标K 相机内参[R|T] 相机外参（位姿=位置+姿态）其中可以细分为像素坐标系，物理坐标系，相机坐标系，世界坐标系。γ是畸变系数，包括径向畸变，切向畸变。理想情况没有γ，极端情况，鱼眼相机的畸变很大（拍摄角度广）2D-2D2D-2D的变化均可以由投影变化解释对应着单应性矩阵H下面这张图忘记从哪里找到的了，算是见过的最全面的2D-2D变化图了。仿射变化：正对着物体进行拍摄，得到的即为仿射变化，不会改变

2021-10-16 20:05:09 628

原创多分类/多标签的评价指标以及阈值调优

图像分类多标签/多分类图像分割pacc，miou目标检测P/Rmap，实际过程中有哪些更加合理的评价指标aucmiou

2021-10-16 18:06:52 4971

原创多模态--Residual-based的融合方式

多模态–Residual-based的融合方式之前希望通过融合图像语义信息提升双目视差网络的精度。师兄也尝试过通过融合红外散斑双目图像与RGB双目图像来提升双目视差网络的精度。都有一些理论依据1）小物体的视差差距往往小于大物体的视差差距。2）红外散斑图像在白墙等物体上效果比较近好。从结果上来看都有一些提升，但是融合方式都比较简单，基本就是直接concat。最近ICCV 2021 中的工作，基于视觉感知的多传感器融合点云语义分割方法《Perception-Aware Multi-Sensor

2021-10-11 23:58:54 486

原创归一化--bn/ln

下面这张图算是我见过讲归一化最清楚的图了稍微补充一点2D,3D的BN3D卷积输入[N,C,I,H,W]，BN对N,IHW维度2D卷积输入[N,C,H,W]，BN对N,HW维度对图片的初始化我理解也类似一个BN（少了第四步-弥补信息），也是对channel维度imagenet的 RGB模式 std标准差：[0.229, 0.224, 0.225] mean均值：[0.485, 0.456, 0.406]https://blog.csdn.net/u0128

2021-10-10 21:19:01 295

原创 NLP入门--注意力机制

RNN2输入2输出权值时间维度共享可以双向RNN（相当于增加了从右向左阅读），多层RNN，并且输出尺寸不一定等于输出尺寸，也存在GAP，全连接层等。先横向传导，后纵向传导https://zhuanlan.zhihu.com/p/371849556LSTM–long short term memory3输入3输出功能上类似resnet，利用浅层特征，有效解决梯度爆炸/梯度弥散的问题为了有效利用浅层特征，增加了cell status，保存历史信息，参数总量从4个到了6个。cell sta

2021-10-10 21:02:33 391

原创内容电商/直播电商

来了杭州阿里之后，发现大家原本搞cv/nlp的很多都转去做推广搜了。我之前考虑到我老家合肥那边推荐岗位比较少，就没太关注这方面，来了杭州之后觉得杭州也不错，挺适合定居的一座城市，而且推广搜确实比cv/nlp变现快，商业模式稳定一些，更加被工业界喜欢。就主动从技术和业务的角度了解了一些。技术方面主要由召回，粗排序，精排序gbdt+lr wide& 作为baseline其中粗排序中的双塔结构和cv中的双塔结构不太一样，一个追求速度一个追求精度。业务方面看了一些视频，有一些自己的想

2021-10-01 19:42:01 194

原创 ffmpeg为什么没有提供，提取指定数量关键帧的函数

三维重建需要不同角度的多张图片（至少三张）之前拍摄视频后通过ffmpeg提取指定数量的图片，然后进行重建，速度相较于使用opencv提取图片有明显的提升。但是这种方法并不能保证提取到的图片可以代表整段视频，当时了解到“关键帧”这个名词后，希望能从一段视频中提取出指定个数的关键帧。当时受限于1）ffmpeg没有直接提供相应的接口2）没整明白ipb帧里面的i帧到底是不是未经压缩过的图片…比较尴尬，最近在了解视频理解，看了看slowfast，顺手记录一下。当时主要看见一堆这种I帧压缩的东西，现在才发

2021-09-30 21:03:20 599

原创 python限流-redis

最近在回顾一下之前做过的项目，有一些新想法，在这里记录一下。之前用python调用百度云接口的时候，要求qps不能过高，否则失败率很高，不能充分利用购买的qps权限。当时傻乎乎的实验开多少个进程数比较合适，晚上还爬起来看看代码有没有崩…来了公司之后，做项目的时候发现原来有 “限流” 这种东西，看来还是得提升一下工程方面的能力呀，至少需要知道大概的方向…https://www.baidu.com/link?url=RCV2I_GfeXrYKKVyFTAZbB4zuNdxe2WTQGUlgC8HlrRA

2021-09-25 21:56:25 388

原创三维脚模重建

本科毕设做了一波三维脚模重建，还挺神奇的，实验室没相关基础，自己也没接触过相关内容，做的过程中做加了一堆qq群，还自费报了深蓝学院的入门课程，最后做的感觉也就马马虎虎…好歹做了那么久，这里稍微记录一下。我是利用了三维重建中比较常用的 sfm技术（Structure from motion），运动中恢复结构，这里的运动指的是相机的运动，相机在动，相对的物体也在运动了。sfm和slam算是兄弟技术把，sfm速度慢，精度高，slam速度块，精度低，当时考虑高精度就没考虑slam以及深度学习的方法，现在深度学

2021-09-12 22:10:17 506

bigtailhao的博客

原创目标检测-温故而知新

原创多标签分类问题的损失函数与长尾问题

原创立体视觉的坐标变化2D-3D，2D-2D

原创多分类/多标签的评价指标以及阈值调优

原创多模态--Residual-based的融合方式

原创归一化--bn/ln

原创 NLP入门--注意力机制

原创内容电商/直播电商

原创 ffmpeg为什么没有提供，提取指定数量关键帧的函数

原创 python限流-redis

原创三维脚模重建

原创深度/机器学习tricks

原创现有开源ocr

原创刷题leetcode

r-cnn系列论文以及ppt博客

yolo系列论文以及ppt博客

基于莫比乌斯变化的数据增强.pptx

空空如也