jiaotong_jin-CSDN博客

转载基于深度学习的目标检测算法综述

概述 Overview在深度学习正式介入之前，传统的「目标检测」方法都是区域选择、提取特征、分类回归三部曲，这样就有两个难以解决的问题；其一是区域选择的策略效果差、时间复杂度高；其二是手工提取的特征鲁棒性较差。云计算时代来临后，「目标检测」算法大家族主要划分为两大派系，一个是 R-CNN 系两刀流，另一个则是以 YOLO 为代表的一刀流派。下面分别解释一下两刀流和一刀流。两刀...

2019-08-24 10:45:08 689

转载 Few-Shot Image Classification with Meta-Learning（少样本）

1980年， Kunihiko Fukushima 提出了第一个卷积神经网络（https://en.wikipedia.org/wiki/Kunihiko_Fukushima）。从那时起，由于计算能力的不断提高和机器学习社区的巨大努力，深度学习算法在与计算机视觉相关的任务上从未停止过提高它们的性能。2015年，何凯明和他在微软的团队报告说，他们的模型在对来自 ImageNet 的图像进行分类时表现...

2019-08-24 10:42:10 1368

转载 Pytorch hub 介绍

个Facebook的深度学习模型库，一问世就引发了巨大关注。因为它太强了：ResNet、BERT、GPT、VGG、PGAN、MobileNet等深度学习领域的经典模型，只需输入一行代码，就能一键调用。不过，人工智能领域，这样的模型库不仅仅只有PyTorch Hub一个，还有其他4个（来自@爱可可-爱生活）：TensorFlow Hub、TensorFlow Models、Mode...

2019-08-24 10:00:28 4301

转载从 CVPR 2019 一览小样本学习研究进展

背景最近，小样本物体识别成为了一个热门的研究课题（CVPR 2018 收录了 4 篇关于小样本学习的论文，而到了 CVPR 2019，这一数量激增到了近 20 篇）。通常情况下，在训练时你有许多可以使用的各类样本；然后，在测试时，你会面对新的类别（通常为 5 类），其中每个类别仅有极少量的样本（通常每类只有 1 个或 5 个样本，称为「支持集」），以及来自相同类别的查询图像。接下来，本文将...

2019-07-28 09:43:55 949

转载 CVPR 2019的迁移学习总结（google brain）

CVPR2019:好的模型，迁移学习效果就更好吗？Google Brain最新结论特征工程的下一步可能是如何直接操控特征（同域或不同域），而不仅仅是特征选择或特征过滤　— David 9相信很多初学迁移学习的朋友心里一直有个疑问：迁移学习的模型真的对新应用效果也好吗？更好的迁移模型，在其他应用上表现效果也更好吗？根据Google Brain在CVPR 2019的研究总结，今天Dav...

2019-07-24 18:04:58 460

转载主动学习-综述

主动学习是机器学习（更普遍的说是人工智能）的一个子领域，在统计学领域也叫查询学习、最优实验设计”(Active learning (sometimes called “query learning” or “optimal experimental design” in the statistics literature) is a subfield of machine learning and...

2019-07-16 13:04:27 5207

原创 4 实时机器学习架构设计

注意事项：1. 数据通量与存量估计：QPS（每秒请求书）2. 响应延迟3. 和已有其他系统之间的关系（对已有系统和基础设施的依赖、是否会取代新系统）4. 系统意义实时架构： Lambda架构（实时响应层、快速处理层、批处理层）实时响应层：快速读写数据库（Redis、Druid）快速处理层：软实时对外部需求进行相应（Spark、Storm）批处理层：在线下完成大量数据处理（MySQL、Hadoop）1.瀑布流架构：信息单向流动的，从发生到完成呈现瀑布般从上到下的流动

2021-07-03 09:24:28 357

原创 3 机器学习工具Scikit-learn

传统统计软件R：SAS、R、MatLab软件为代表，主要应用于统计、数学、物理等理论统计Weka：java实现。Mahout：运行基于java在hadoop上的软件包，现在基于Spark的MLLib取代了MahoutC语言被python和R取代Scikit 基于了numpy 和Scipy 进行迭代开发，由谷歌开发资助，紧扣实际。优势：开发周期短，直接部署。查阅API官方文档sklearn.cluster 聚类分析sklearn.manifold_learning 流形分析.

2021-07-01 15:54:39 243

原创 2 数据分析工具Pandas

Pandas 的安装利用Pandas分析实时股票保价数据import pandas as pd外部数据导入data=pd.read_csv("data.csv)打印data.head(5)data.tail(5)索引data.index=map( )删除data.drop( )数据分析查看dir(data)data.mean， max, mindata.index.min() data.index.max()可视化操作import...

2021-07-01 15:05:37 145

原创 1 实时监督式机器学习

1. 什么是实时监督式机器学习：因变量、自变量、预测函数（低成本、易解释、易修改）。（注意：较为优秀的为线性模型和朴素贝叶斯模型）。2. 工业界学术门派：百度、阿里、雅虎、谷歌、微软、亚马逊。3. 建议：不要重复造轮子（分布式机器学习 Spark+MLLib速度较好）、没有最好的模型、4. 衡量评价监督式机器学习模型： sklearn的metric模块进行评价回归：均方误差；估计方差；系统性偏差；绝对误差中位数（MAE）；分类：准确率、召回率、F1 value5. 监督式数据收集问

2021-07-01 14:41:01 177

原创实时机器学习系统综述与简介

1. 机器学习（不做介绍）2. 领域分类：监督、非监督、（半监督、强化、元、迁移）等等3. 实时架构：快速稳定、数据连续性、自动化4. 实时机器学习分类：硬实时机器学习：响应系统在接收到请求后，能够马上对请求进行响应反馈，做出处理。（常见领域：网页浏览、在线游戏等）。问题：通常计算机的网络传输延迟是重要因素之一，在服务器上通常用负载均衡进行响应。软实时机器学习：响应系统在接收到请求后，立即开始对响应进行处理，并且在较短的时间内进行反馈。（常见领域：物流运输等）。问题：由于对响应延迟

2021-07-01 14:12:30 506

原创 CVPR 2019 神经网络架构搜索进展综述

神经网络架构搜索（NAS）——前言那么问题来了，神经网络架构搜索（NAS）究竟是什么？为什么我们要了解NAS呢？（这一部分是为了去年完全没有跟进领域内进展的人准备的）NAS的核心思想是使用搜索算法来发现用于解决我们的问题所需要的神经网络结构。回到“博士生下降”的话题：假设你是个希望解决问题A的导师，你会让你的学生来想一种该问题的最优架构——那么，你的学生就是你的搜索算法（听起来似乎更像奴隶...

2019-08-24 10:46:47 1246

原创深度学习下的微表情研究：困难、进展及趋势

一、方法对微表情的研究，在方法上事实上类似于人脸识别，一般包含检测和识别两个具体问题。对于人脸识别，一般都是先进行人脸检测，然后对检测到的人脸进行识别。这个过程同样也适用于微表情识别：先从一段长视频中把发生微表情的视频片段检测出来，然后识别该微表情属于哪一类微表情。人脸检测和微表情检测微表情检测，就是指在一段视频流中，检测出是否包含微表情，并标记微表情的起点(onset)、峰值...

2019-08-24 10:46:24 4695

转载 RAdam

一位Medium网友Less Wright在测试完RAdam算法后，给予了很高的评价：RAdam可以说是最先进的AI优化器，可以永远取代原来的Adam算法了。目前论文作者已将RAdam开源，FastAI现在已经集成了RAdam，只需几行代码即可直接调用。补众家之短想造出更强的优化器，就要知道前辈们的问题出在哪：像Adam这样的优化器，的确可以快速收敛，也因此得到了广泛的应用...

2019-08-24 10:45:29 3015

转载 Facets：快速评估数据集质量，把控数据分析核心环节

在机器学习任务中，数据集的质量优劣对数据分析的结果影响非常大，所谓Garbage in, garbage out，数据决定模型的上限，因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景，也需要评估train set和test set的分布是否一致，存不存在偏斜等。如果两者不一致，可能会导致离线cv分数非常高，可是在leaderborad却下跌了很...

2019-08-24 10:02:51 2315

转载 PyTorch图神经网络库PyG上线

图神经网络是最近 AI 领域最热门的方向之一，很多图神经网络框架如graph_nets和DGL已经上线。但看起来这些工具还有很多可以改进的空间。近日，来自德国多特蒙德工业大学的研究者们提出了 PyTorch Geometric，该项目一经上线便在 GitHub 上获得 1500 多个 star，并得到了 Yann LeCun 的点赞。现在，创建新的 GNN 层更加容易了。项目链...

2019-07-28 09:47:14 1264

转载 DropBlock: A regularization method for convolutional networks(DropBlock 卷积正则化方法改进 CNN 精度)

近日arXiv新上一篇被NIPS2018会议接收的论文《DropBlock: A regularization method for convolutional networks》，作者为来自谷歌大脑的研究人员，提出了一种专门针对卷积层正则化的方法，有效改进了CNN的各种任务，非常值得一读！作者信息：文中指出，在目前的神经网络训练的广泛实践中，全连接网络加DropOut是一种有效的正则化...

2019-07-24 18:04:49 295

转载 CVPR2019 少样本学习

分类任务上的少样本学习1.Edge-Labeling Graph Neural Network for Few-shot Learning(classification) paper: https://arxiv.org/abs/1905.01436 code: https://github.com/khy0809/fewshot-egnn 图网络（Graph ...

2019-07-24 18:04:33 1108

转载 Pytorch 的高级报Pywick

Pywick包含：标准库没有提供的最先进的normalization, activation, loss functions and optimizers；拥有callbacks, constraints, metrics, conditions and regularizers特性的高级训练模块；大量流行的目标识别与语义分割模型；全面的数据加载与处理函...

2019-07-24 18:04:15 138

转载机器学习画图工具python scikit-plot

安装说明安装Scikit-plot非常简单，直接用命令：pipinstallscikit-plot即可完成安装。仓库地址：https://github.com/reiinakano/scikit-plot里面有使用说明和样例（py和ipynb格式）。使用说明简单举几个例子比如画出分类评级指标的ROC曲线的...

2019-07-24 17:37:02 5223

转载五种常用的异常值检测方法（均方差、箱形图、DBScan 聚类、孤立森林、Robust Random Cut Forest

什么是异常/离群点？在统计学中，离群点是并不属于特定族群的数据点，是与其它值相距甚远的异常观测。离群点是一种与其它结构良好的数据不同的观测值。例如，你可以很清楚地看到这个列表中的离群点：[20,24,22,19,29,18,*4300*,30,18]当观测值是一堆数字且都是一维时，辨别离群点很容易，但如果有数以千计的观测值或数据是多维的，你可能会需要更机智的方法来检测这些离群点。...

2019-07-24 17:36:55 15769

转载 Hinton等人最新研究：大幅提升模型准确率，标签平滑技术 2019-7-8

导读：损失函数对神经网络的训练有显著影响，也有很多学者人一直在探讨并寻找可以和损失函数一样使模型效果更好的函数。后来，Szegedy 等学者提出了标签平滑方法，该方法通过计算数据集中 hard target 的加权平均以及平均分布来计算交叉熵，有效提升了模型的准确率。近日，Hinton 团队等人在新研究论文《When Does Label Smoothing Help？》中，就尝试对标签平滑技术对...

2019-07-24 17:36:38 633

转载事理图谱：事件演化的规律和模式

2016年7月，哈工大社会计算与信息检索研究中心（HIT-SCIR）开始启动事理图谱的研究工作。2017年10月，研究中心主任刘挺教授在中国计算机大会（CNCC）上正式提出事理图谱的概念。2018年9月，在研究中心丁效老师的主持下，研制出中文金融事理图谱1.0版本，2019年7月更新为2.0版。本文是对2016年7月以来工作的最新总结，敬请各位同行指正。引言事件是人类社会的核心概念之一，人...

2019-07-24 17:36:30 1846

转载谷歌提出新型半监督方法 MixMatch

事实证明，半监督学习可以很好地利用无标注数据，从而减轻对大型标注数据集的依赖。而谷歌的一项研究将当前主流的半监督学习方法统一起来，得到了一种新算法 MixMatch。该算法可以为数据增强得到的无标注样本估计（guess）低熵标签，并利用 MixUp 来混合标注和无标注数据。实验表明，MixMatch 在许多数据集和标注数据上获得了 STOA 结果，展现出巨大优势。例如，在具有 250...

2019-06-03 13:25:23 1276

转载基于深度学习的图像分类优化（FastAI库）

https://github.com/fastai/fastai渐进的（图片）尺寸调整当训练CNN模型的时候，从小到大的线性调整图片尺寸是一项技术。渐进的尺寸调整在很赞的fastai课程中被描述为：程序员的深度学习实践。一种不错的方式是先用小的尺寸，如64 x 64进行训练，再用这个模型的参数，在128 x 128尺寸上进行训练，如此以往。每个较大的模型都在其体系结构中包含以前较小...

2019-06-03 10:36:38 929

转载机器学习算法评价指标

在使用机器学习算法的过程中，针对不同场景需要不同的评价指标，在这里对常用的指标进行一个简单的汇总。一、分类 1. 精确率与召回率描述：精确率与召回率多用于二分类问题。精确率（Precision）指的是模型判为正的所有样本中有多少是真正的正样本；召回率（Recall）指的是所有正样本有多少被模型判为负样本。公式：结果：需要在精确率与召回率间进行权衡，一种选择是画出精确率-召回率曲线（Pr

2017-07-21 15:11:08 1436

u013328485的专栏