AI/ES
wishchin
CV算法工程师:从事室内场景感知方面工作,完成算法实验和软件开发。
展开
-
提高机器学习模型准确率的八大方法
机器学习面对的是一个受限有穷空间 到 一个扩大的有穷空间 的泛化问题。 对于一个不能充分描述的真实数据空间,假设空间的可信度就大打折扣,基于假设空间建立的模型就一直在欠拟合和过拟合之间摇摆。1. 增加更多数据 2. 处理缺失值和异常值 3. 特征工程学 4. 特征选择 5. 使用多种算法 6. 算法的调整 7. 集成模型 8. 交叉验证。转载 2016-07-12 17:37:07 · 16150 阅读 · 1 评论 -
CaptCha的现状与未来
“验证码”( CAPTCHA )其实并不是各位网友总是在不同网站上看到的难以辨认的字母组合的代名词,而是“全自动区分计算机和人类的图灵测试”的俗称,顾名思义,它的作用是区分计算机和人类。转载 2014-11-13 10:40:16 · 1477 阅读 · 0 评论 -
OnLineML:时序数据挖掘
关于时序分析: 我们跟随时间的脚步,试图解释现在、理解过去、甚至预测未来........时间序列是一种重要的高维数据类型,它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列,在经济管理以及工程领域具有广 泛 应用。 目前重点的研究内容包括时间序列的模式表 示、时间序列 的相似性度量和查询、时间序列的聚类、时间序列的异常检测、时间序列的分类、时间序列的预测等。转载 2014-07-16 19:04:32 · 4071 阅读 · 3 评论 -
分布式机器学习框架:CXXNet
caffe是很优秀的dl平台。影响了后面很多相关框架。 cxxnet借鉴了很多caffe的思想。相比之下,cxxnet在实现上更加干净,例如依赖很少,通过mshadow的模板化使得gpu和cpu代码只用写一份,分布式接口也很干净。CXXNET:极致的C++深度学习库 cxxnet是一个并行的深度神经网络计算库,它继承了xgboost的简洁和极速的基因,并开始被转载 2016-07-08 11:04:44 · 1703 阅读 · 0 评论 -
ML及AI资源索引
原文链接:http://blog.csdn.net/pongba/article/details/2915005机器学习与人工智能学习资源导引TopLanguage(https://groups.google.com/group/pongba/) 我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知转载 2013-11-02 15:07:56 · 952 阅读 · 0 评论 -
MxNet教程:使用一台机器训练1400万张图片
此方法描述了如何是使用一台机器 -4张GTX980互联在一台机器上,训练8.5天训练完整个ImageNet 数据集,此数据集有14,197,087张图片。 1.存储海量数据的方法。 2.最小化内存的计算代价。 3.如何快速训练模型。翻译 2016-07-21 19:24:14 · 4450 阅读 · 0 评论 -
图像特征理论综述
前言: 关于集合:在计算机科学领域,离散数学是非常重要的学科,在图像处理领域,这种重要性更加直观。 一:特征可靠性的来源:1. 数据离散化: 系统观测理论:物理世界存在某一实体,若对其进行描述和解析,需要观测系统及系统所提供的接口。作为图像分析系统的接口,实现的功能是完成实体的图像化,即是实体的可视化。 实体与人的视...翻译 2014-11-16 14:12:37 · 1788 阅读 · 0 评论 -
DNN:DL讨论与DNN经典论文汇总
引言:达尔文的进化哲学:适者生存!其原因不是因为适者生存,而是因为不适者都会死去;没有免费的午餐定理:没有普适性的优越算法,如果一个算法对一个或一些应用相对其他算法表现极大的优越性,那么在特定领域必然也体验足够的弱势;纯科学的存在价值:不能转化为应用的科学是没有价值的,纯科学的存在价值,就是维持整个科学体系的严谨性;原创 2013-12-31 15:04:06 · 4697 阅读 · 0 评论 -
ES: 机器学习、专家系统、控制系统的数学映射
机器学习维基定义:机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,专业术语为“模型”。专家系统维基定义:可以看作是一类具有专门知识和经验的计算机智能程序系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题。一般来说,专家系统=知识库+推理机。原创 2014-12-06 15:53:45 · 4180 阅读 · 1 评论 -
支持向量机的近邻理解:图像二分类为例(1)
一个古老的哲学原理:世界并不是以小包的形式来到我们面前,除非遍历整个空间,任何训练得到的模型都是过拟合的。面对学习问题,首先面对这一个空间的认知问题,对空间结构的认识来自于接口,而全面的认识来自于遍历。在认识一个未知空间之前,一般的套路是由接口获取的数据对这个空间进行简单假设,迭代修改理解规则,最后到遍历。原创 2016-10-19 17:37:01 · 1979 阅读 · 0 评论 -
ML的BD框架-Hadoop.Mahout.Strom.Spark/GraphLab
AI发展的方法论进展缓慢,大数据已然崛起,随着存储和计算能力价格的降低,分布式ML框架蓬勃发展,各种繁荣不断出现......GraphLab将数据抽象成Graph结构,将算法的执行过程抽象成Gather、Apply、Scatter三个步骤。其并行的核心思想是对顶点的切分,以下面的例子作为一个说明。原创 2014-12-28 18:23:51 · 1378 阅读 · 1 评论 -
统计机器学习那些事
把统计方法引入机器学习领域,作为机器学习的一个方法论,取得了显著的成果。AI到底是不是一个完备性问题值得探讨,而模糊逻辑为探索语义完备性的应用范围开辟了一个好的方向,统计机器学习方法对规则的提取与模糊逻辑表象相似,统计机器学习方法妄图使用优良数据来表示规则,并使用动态数据描述规则的动态性,使模型成为动态模型,不断提高准确率和应用范围。转载 2013-09-23 09:53:19 · 2728 阅读 · 0 评论 -
AI 的会议总结(by南大周志华)
纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全.同分的按字母序排列. 不很严谨地说, tier-1是可以令人羡慕的, tier-2是可以令人尊敬的,由于AI的相关会议非常多, 所以能列进tier-3的也是不错的转载 2013-07-24 15:32:54 · 1013 阅读 · 0 评论 -
国外AI界牛人主页 及资源链接
感觉 好博客要收集,还是贴在自己空间里难忘!!!资源帖,不喜勿喷!转载 2013-07-24 15:45:17 · 1654 阅读 · 0 评论 -
OpenCV:OpenCV目标检测Boost方法单独训练
在古老的CNN方法出现以后,并不能适用于图像中目标检测。20世纪60年代,Hubel和Wiesel( 百度百科 )在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。 参考:DNN的演进结构——CNN ...原创 2017-03-22 13:05:19 · 1855 阅读 · 0 评论 -
决策树构建算法之—C4.5
C4.5相比于ID3算法,改进:1.C4.5用的是子树信息增益率。2.在决策树构造过程中进行剪枝。3.对非离散数据也能处理。4 能够对不完整数据进行处理。C4.5算法的优点是:产生的分类规则易于理解,准确率较高。C4.5算法的缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。转载 2014-11-13 10:38:07 · 1392 阅读 · 0 评论 -
支持向量机的近邻理解:图像二分类为例(3)
在图像识别领域,灰度图像被称为传说中的2维张量,任意图像为由所有二类图像构成的这个二维张量空间内的一个点。由人类专家完成图像属性归纳,把二维张量空间图像的特征显式的归结为一维张量空间的n维向量上,被称为特征提取。一般提取的特征并不一定能在n维向量空间中线性可分,这就需要再由模型进行一次映射,把向量样本转换到新的空间实现线性可分。原创 2016-10-22 16:21:29 · 1287 阅读 · 0 评论 -
支持向量机的近邻理解:图像二分类为例(2)
从可见样本归纳出假设空间,与事实空间一般不会相同,这就意味着泛化是个概率性的问题。在图1中的例子中可以看出,严格来说,符合专家直觉特征提取过程并不符合甚至可视样本空间的要求,二维线性不可分映射到三维向量空间线性可分是对特征提取的弥补。 一切直觉可计算的,便是递归可计算的。既然符合直觉的特征提取看似永远不能满足仅仅是可见样本空间的要求,就使用一劳永逸的方案,使用模型来解决特征空间的可描述性。原创 2016-10-20 12:03:49 · 2346 阅读 · 0 评论