深度学习与机器学习
文章平均质量分 73
Wayne2019
这个作者很懒,什么都没留下…
展开
-
House Prices (1):python 探索性数据分析
如题,这是一个kaggle的训练赛。目标是预测房价。评分指标是房价预测值与观测值取log后的RMSE,并且赛题指出取对数使得对较贵房子的预测误差和对便宜房子的预测误差对结果有同样的影响,为什么?先把公式写出来: RMSE=∑nt=1(y^t−yt)2n−−−−−−−−−−√.\operatorname{RMSE}=\sqrt{\frac{\sum_{t=1}^n (\hat y_t - y_原创 2017-08-04 17:26:29 · 2264 阅读 · 0 评论 -
OHEM,Batch Hard(识别乱入),Focal Loss
一些别人总结的Faster R-CNN后续改进: [目标检测] Faster R-CNN 深入理解 && 改进方法汇总 Faster R-CNN改进篇(一): ION ● HyperNet ● MS CNNTraining Region-based Object Detectors with Online Hard Example Mining 最好先阅读之前博文: Tensorflow o原创 2018-01-01 12:18:22 · 5411 阅读 · 0 评论 -
AlignedReID
旷视的AlignedReID,很有意思。 The end-to-end learning with structure prior is more powerful than a “blind” end-to-end learning.reid难点: 目前triplet loss等用的比较多。Combining softmax loss with metric learning原创 2018-01-05 09:36:03 · 5355 阅读 · 0 评论 -
FCN: 卷积和转置卷积等
各种卷积的动态图这里y是下一层(i,j)处的值,k是kernel size, s是stride,f泛指卷积层,池化层和激活函数。这些操作都具有局部性,限定在x的delta邻域中。这里是说两个这样的操作可以进行复合,复合后的“等效”kernel size和stride在右下角。 如上图,若第一层的k=3,第二层的k=1,则等效k=3;若第一层的k=3,第二层的k=2,则等效k=原创 2018-01-15 10:07:37 · 1481 阅读 · 0 评论 -
视频物体检测文献阅读笔记
Impression Network for Video Object Detection 基于印象机制的高效多帧特征融合,解决defocus and motion blur等问题(即视频中某帧的质量低的问题),同时提高速度和性能。 类似TSN,每个segment选一个key frame(注意,TSN做视频分类是在cnn最后才融合不同的segments)。特征融合前需要用Optical原创 2018-01-06 11:03:39 · 3064 阅读 · 1 评论 -
基于视频的ReID
Region-based Quality Estimation Network for Large-scale Person Re-identification最近集中刷一波视频分析的文章。又是各帧的叠加,为了修补质量低的帧(从而由视频来获得对一个人更完整的印象或记忆?)。联想京东猪识别竞赛–第二路将人体分区域。u, m, l represent the upper part,原创 2018-01-01 11:58:48 · 6677 阅读 · 0 评论 -
Learning Region Features for Object Detection
图像特征提取,候选区域生成,候选区域特征提取(roi pooling),区域识别,去重fm x: Cf, H, W RoI b y(b) = RegionFeat(x, b) y(b): K, Cf. K比如是bin的数目 y_k(b): 第k个bin内的特征一般表述: 将y_k(b)的支持区域由roi pooling的一个bin内部扩展到整个fm x。权重依赖于位置p,fm x...原创 2018-04-15 07:18:07 · 1685 阅读 · 0 评论 -
HyperNet, RON, FPN
HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection 主要是融合了不同层级的特征,比较容易理解,参考: https://blog.csdn.net/u012905422/article/details/52614192 https://blog.csdn.net/u01236121...原创 2018-04-15 09:39:44 · 1032 阅读 · 0 评论 -
视频动作分类文献阅读笔记
太长不看版: trimmed video可以用 TSN+I3D/P3D+Bilinear pooling + non-local block。其中各部分涉及的文章下面都有讲。可以先看之前的文章:Video Analysis 入门。1.TSN 视频数据的中时建模介绍,5s,如high jump,用于剪辑视频分类。 基于双流法,然后对视频不同片段预测的结果进行平均。 TSN是目前最主流且(后续工作原创 2017-12-28 01:12:20 · 5806 阅读 · 0 评论 -
Video Analysis 入门
总结一些入门资料。原创 2017-12-27 08:27:08 · 5008 阅读 · 0 评论 -
人脸检测文献阅读
随便搜索了一下: 人脸检测识别文献阅读总结 检测文章中一般都细节很多,这里只总结主要思路。Joint Training of Cascaded CNN for Face Detectioncascade的优势: handle unbalanced distribution of negative and positive samples. In the early stages, week原创 2018-01-01 12:02:16 · 728 阅读 · 0 评论 -
机器学习转行之路:起点
决定转行做机器学习,在此记录自己的一些基础,也算是对自己的一种鼓励吧。原创 2017-08-04 16:12:20 · 1512 阅读 · 2 评论 -
Udacity深度学习(google)笔记(4)——文本和序列的深度模型(word2vec, RNN, LSTM)
非监督学习(应用前景?)embeddings: Word2Vect-SNEsampled softmaxCBOW和skip-gram任务 5: Word2Vec and CBOW RNN,反向传播梯度消失/爆炸(看看教材的推导和说明)LSTMBeam搜索(就是有效地一次往前看多步再做决策)任务 6: LSTMs: 训练一个一个长短期记忆网络预测字符串机器翻译语音识别图片原创 2017-08-15 22:01:06 · 1036 阅读 · 2 评论 -
Udacity深度学习(google)笔记(1)——notmnist
Softmax函数是将k维实数向量映射成k维(0,1)之间的实数向量(求指数后再除以指数的总和)。如果将原来的实数向量都乘以10倍,则会使得映射后的向量取值更为“极端”,即此时的学习器特别自信!One-Hot 编码交叉熵:不对称Multinomial Logistic Regression:最小化交叉熵:梯度下降python 3.6 中range取代了xrange的作用,另外下述代原创 2017-08-14 21:45:51 · 1171 阅读 · 0 评论 -
Udacity深度学习(google)笔记(2)——深度神经网络, tensorflow
tensorflow的基本用法(不难,但是还是需要不时查阅文档,后续尝试下keras)反向传播,常见的教材都有推导任务2: 使用梯度下降和随机梯度下降训练一个全连接网络axis=0是对列的操作看着下面的代码应该能想象出上次笔记中的那张xW+b的图(图形化的记忆和理解): # Variables. weights = tf.Variable( tf.truncated_normal([原创 2017-08-15 10:28:55 · 869 阅读 · 0 评论 -
Udacity深度学习(google)笔记(3)——CNN 卷积模型
深度学习与计算机视觉系列(8)_神经网络训练与注意点深度学习之四大经典CNN技术浅析(熟悉一下经典的CNN以及它们在tensorflow或keras中的预训练模型,在此基础上可以通过迁移学习或者微调来完成一些自己的深度学习任务)AlexNetVGGNetGoogle Inception NetResNet合并颜色统计不变性: translation invarian原创 2017-08-15 17:00:12 · 850 阅读 · 0 评论 -
经典cnn论文使用的数据增强(Train/Test time augmentation)和算法配置摘要
稍微总结一下常见的训练时和验证时数据增强(Test time augmentation)技术。https://discuss.pytorch.org/t/test-time-augmentation/8828A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neura原创 2017-10-19 10:20:58 · 7076 阅读 · 0 评论 -
论文阅读: 图像分类中的注意力机制(attention)
本文简要总结一下attention机制在图像分类任务中的应用。attention作为一种机制,有其认知神经或者生物学原理: 注意力的认知神经机制是什么? 如何从生物学的角度来定义注意力? 在计算机视觉领域,注意力机制有各种不同形式的实现,可以大致分为soft attention和hard attention[1]。Soft attention的典型例子是stn[3],Residual Atte原创 2017-11-09 12:10:44 · 66228 阅读 · 7 评论 -
论文笔记: (compact) Bilinear Pooling, Confusion
Learn by attention, learn with confusion.先引用几段魏秀参大神的论述「见微知著」——细粒度图像分析进展综述 细粒度物体的差异仅体现在细微之处。如何有效地对前景对象进行检测,并从中发现重要的局部区域信息,成为了细粒度图像分类算法要解决的关键问题。对细粒度分类模型,可以按照其使用的监督信息的多少,分为“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”两原创 2017-11-04 01:51:45 · 18182 阅读 · 7 评论 -
Logistic 多分类
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Wed Dec 20 14:54:31 2017@author: wayne"""import pandas as pdimport numpy as npfrom sklearn import preprocessingfrom sklearn.linea原创 2017-12-21 04:51:18 · 995 阅读 · 0 评论 -
计算机视觉: 物体分类,场景分类,事件分类
主要总结一下最近看的几篇场景分类文献,顺便总结场景、物体和事件分类的关系。 [1] ILSVRC 2015 Scene Classication Challenge.冠军,主要贡献是Relay Backpropagation和Class-aware Sampling。比赛结果如下图: [2] 16年场景分类的冠军海康威视。比较有特色的地方是Supervised Data Augmentatio原创 2017-11-26 04:06:56 · 10517 阅读 · 5 评论 -
R-FCN-3000, Segment Every Thing, YOLO9000
主要关注分类,检测和分割等任务训练数据的解耦。原创 2017-12-25 06:23:12 · 861 阅读 · 0 评论 -
UNet
kaggle上的常客(医学图像领域比较常用,也是car分割的冠军模型): https://www.kaggle.com/c/data-science-bowl-2018/discussion/54426 U-Net: Convolutional Networks for Biomedical Image SegmentationVALID padding not SAME paddi...原创 2018-04-15 23:24:23 · 27756 阅读 · 0 评论