machine learning
文章平均质量分 85
cicilover
这个作者很懒,什么都没留下…
展开
-
机器学习 python编程库
Numpy 基础编程库 除了提供高级的数学运算机制,还有高效的向量和矩阵运算功能SciPy基于Numpy 功能更强大https://docs.scipy.org/doc/numpy-dev/user/quickstart.html绘图工具包 工作方式和绘图命令和MatLab类似matplotlib.org/contents.htmlscikit-learnsciki...原创 2017-07-21 10:23:08 · 6036 阅读 · 0 评论 -
支持向量机-手写数字识别
支持向量机分类器:决定分类直线位置的样本并不是所有的训练数据,而是其中对两个空间间隔最小的两个不同类别的数据点,把这种可以用来真正帮助决策最优贤行分类模型的数据点叫做“支持向量”。LR模型由于在训练过程中考虑了所有训练样本对于参数的影响,因此不一定能获得最佳的分类器。使用支持向量机分类器处理sklearn内部集成的手写字体数字图片数据集。原创 2017-08-17 14:08:41 · 20674 阅读 · 0 评论 -
超参数搜索之网格搜索与并行搜索
超参数搜索:所谓的模型配置,一般统称为模型的超参数(Hyperparameters),比如KNN算法中的K值,SVM中不同的核函数(Kernal)等。多数情况下,超参数等选择是无限的。在有限的时间内,除了可以验证人工预设几种超参数组合以外,也可以通过启发式的搜索方法对超参数组合进行调优。称这种启发式的超参数搜索方法为网格搜索。网格搜索由于超参数的空间是无尽的,因此超参数的组合配置只能是原创 2017-09-06 11:40:18 · 13039 阅读 · 1 评论 -
人脸识别之特征脸方法
特征脸技术是近期发展起来的用于人脸或者一般性刚体识别以及其它涉及到人脸处理的一种方法。首先把一批人脸图像转换成一个特征向量集,称为“Eigenfaces”,即“特征脸”,它们是最初训练图像集的基本组件。识别的过程是把一副新的图像投影到特征脸子空间,并通过它的投影点在子空间的位置以及投影线的长度来进行判定和识别。将图像变换到另一个空间后,同一个类别的图像会聚到一起,不同类别的图像会聚力比较远,在原创 2017-09-06 13:47:24 · 20011 阅读 · 3 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监督机器学习问题无非就是“minimizeyour error while re转载 2017-09-06 14:16:13 · 3510 阅读 · 0 评论 -
左手程序员,右手作家:你必须会的Jupyter Notebook
原文链接在数据分析的道路上,你一定曾有过为新发现而激动不已的时刻,此时你急于将自己的发现告诉大家,却遇到了这样的问题:如何将我的分析过程清晰地表述出来呢?为了能与同行们有效沟通,你需要重现整个分析过程,并将说明文字、代码、图表、公式、结论都整合在一个文档中。显然传统的文本编辑工具并不能满足这一需求,所以这儿隆重推荐一款神器 Jupyter Notebook,不仅能在文档中执行代转载 2017-09-15 17:44:27 · 2440 阅读 · 0 评论 -
特征提升之特征抽取
之前都是一旦确定使用某个模型,程序库就可以帮助我们从标准的训练数据中,依靠默认的配置学习到模型所需要的参数,然后利用这组得来的参数指导模型在测试数据集上进行预测,进而对模型的表现性能进行评价。这套方案不能保证:1)所有用于训练的数据特征都是最好的2)学习得到的参数一定是最优的3)默认配置下的模型总是最佳的所以,可以从多个角度对前面所使用过的模型进行性能提升,包括预处理数据/控制原创 2017-08-31 11:42:09 · 9989 阅读 · 0 评论 -
Pipeline学习器流水线
sklearn提供了Pipeline将多个学习器组成流水线。通常,流水线的形式为:将数据标准化的学习器-->特征提取的学习器-->执行预测的学习器。除了最后一个学习器之外,之前的所有学习器必须提供tranform方法,该方法用于数据变换(如归一化,正则化,以及特征提取等)。Pipeline的原型为:class sklearn.pipeline.Pipeline(steps)参数原创 2017-09-10 13:33:10 · 5892 阅读 · 0 评论 -
机器学习中文资源合集
机器学习日益广为人知,越来越多的计算机科学家和工程师投身其中。不幸的是,理论、算法、应用、论文、书籍、视频等信息如此之多,很容易让初学者迷失其中,不清楚如何才能提升技能。本文作者依据自身经验给出了一套快速上手的可行方法及学习资源的分类汇总,机器之心在其基础上做了增益,希望对读者有所帮助。转载 2017-09-11 23:12:37 · 3753 阅读 · 0 评论 -
从机器学习谈起- 值得深入阅读的ML入门文章
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。转载 2017-08-03 15:49:51 · 6840 阅读 · 0 评论 -
开发者入门必读:最值得看的十大机器学习公开课
[转] http://www.leiphone.com/news/201701/0milWCyQO4ZbBvuW.html导语:入门机器学习不知道从哪着手?看这篇就够了。在当下的机器学习热潮,人才匮乏十分显著。截至目前,国内开设人工智能(AI)专业的高校不多,相当多的开发者是跨界入门,需要自学大量知识并摸索。因而优质的学习资源至关重要转载 2017-09-28 14:47:35 · 1565 阅读 · 0 评论 -
Android Things and Machine Learning
Android Things allows you to make amazing IoT devices with simple code, but one of the things that can make a device extraordinary is machine learning. While there are a few services available online that will allow you to upload data and will return resul转载 2017-09-30 15:13:43 · 1245 阅读 · 0 评论 -
CNNs在图像压缩领域的运用——An End-to-End Compression Framework Based on Convolutional Neural Networks
转自:https://blog.csdn.net/qq_28659831/article/details/79283519一、引言之前写的论文笔记中讲的都是基于RNN的图像压缩网络,本文将要讲的是由哈尔滨工业大学Jiang Feng教授(具体的名字我也不知道怎么写)及其团队成员提出的基于CNN的图像压缩网络。该网络是CNN和标准图像算法在图像压缩领域中的首次结合,取得了state of th...转载 2019-02-21 09:44:21 · 2372 阅读 · 1 评论 -
特征提升之特征筛选
良好的数据特征组合不需太多,就可以使得模型的性能表现突出。冗余的特征虽然不会影响到模型的性能,但使得CPU的计算做了无用功。比如,PCA主要用于去除多余的线性相关的特征组合,因为这些冗余的特征组合不会对模型训练有更多贡献。不良的特征自然会降低模型的精度。特征筛选与PCA这类通过主成分对特征进行重建的方法略有区别:对于PCA,经常无法解释重建之后的特征;然而特征筛选不存在对特征值的修改,从而更加原创 2017-09-05 18:23:21 · 15493 阅读 · 1 评论 -
PCA-手写字体图片识别
特征降维特征降维是无监督学习的另一个应用,有两个目的:1.会在实际项目中遭遇特征维度非常高的训练样本,往往无法借助自己的领域知识人工构建有效特征;2.在数据表现方面,无法用肉眼观测超过三个维度的特征。特征降维不仅重构来有效的低维度特征向量,同时也为数据展现提供了可能。在特征降维的方法中,主成分分析(Principal Component Analysis)是最经典和实用的特征降维技术,特别在辅助图像识别方面有突出表现。原创 2017-08-23 15:46:30 · 14667 阅读 · 0 评论 -
Python机器学习库scikit-learn实践
http://blog.csdn.net/zouxy09/article/details/48903179一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机转载 2017-07-21 10:20:31 · 6582 阅读 · 0 评论 -
【干货】Kaggle 数据挖掘比赛经验分享
简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔转载 2017-08-02 09:52:41 · 6897 阅读 · 0 评论 -
线性分类器-Tumer Prediction
LR和SGDClassifier:前者对参数的计算采用精确解析的方式,计算时间长但是模型性能略低,后者采用随机梯度上升算法估计模型参数,计算时间时间短但模型性能略高。一般,对于训练数据规模在10万量级以上的数据,考虑到时间到耗用,更推荐使用SGD算法对模型参数进行估计。原创 2017-08-16 18:00:11 · 14834 阅读 · 0 评论 -
Anaconda使用总结
Anaconda使用总结 原文地址:http://www.jianshu.com/p/2f3be7781451序Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package...转载 2017-07-21 10:25:56 · 6522 阅读 · 0 评论 -
使用Anaconda解决Python 2X与python 3X的共存问题
现在Python3 被越来越多的开发者所接受,同时让人尴尬的是很多遗留的老系统依旧运行在 Python2 的环境中,因此有时你不得不同时在两个版本中进行开发,调试。如何在系统中同时共存 Python2 和 Python3 是开发者不得不面对的问题,一个利好的消息是,Anaconda 能完美解决Python2 和 Python3 的共存问题,而且在 Windows 平台经常出现安装依赖包(比如 ...原创 2017-08-03 14:15:36 · 683 阅读 · 0 评论 -
K近邻-鸢尾分类
K近邻 KNN对于一个待分类的测试样本,寻找与待分类的样本在特征空间中距离最近的K个已标记样本做参考,来帮助我们做出分类决策。K的不同,分类效果不同。K不属于模型通过训练数据学习的参数,因此在模型初始化时需要提前确定。原创 2017-08-17 18:28:55 · 16270 阅读 · 0 评论 -
朴素贝叶斯-新闻分类
朴素贝叶斯分类器的构造基础是基于贝叶斯定理与特征条件独立假设的分类方法,与基于线性假设的模型(线性分类器和支持向量机分类器)不同。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。朴素贝叶斯有着广泛的实际应用环境,特别是在文本分类的任务中,包括新闻的分类,垃圾邮件的筛选原创 2017-08-17 17:24:43 · 18574 阅读 · 0 评论 -
普通程序员如何转向AI方向
http://www.cnblogs.com/subconscious/p/6240151.html眼下,人工智能已经成为越来越火的一个方向。普通程序员,如何转向人工智能方向,是知乎上的一个问题。本文是我对此问题的一个回答的归档版。相比原回答有所内容增加。 一. 目的 本文的目的是给出一个简单的,平滑的,易于实现的学习方法,帮助 “普通” 程序员踏入AI领域转载 2017-08-03 16:08:09 · 6199 阅读 · 0 评论 -
决策树-泰坦尼克号生还预测
LR和SVM都在某种程度上要求被学习的数据特征和目标之间遵照线性假设。然后许多现实场景下,这种假设不存在。比如根据年龄预测流感的死亡率,如果用线性模型假设,那只有两个可能:年龄越大/越小,死亡率越高。根据厂商,青壮年更不容易因患流感而死亡。年龄和因流感的死亡不存在线性关系。在机器学习模型中,决策树是描述非线性关系的不二之选。原创 2017-08-18 11:53:13 · 17019 阅读 · 0 评论 -
集成模型-泰坦尼克号生还预测
集成模型(分类)(Ensemble)集成分类模型综合考量多个分类器的预测结果,进而做出决策。综合考量的方式大体分两种:1.利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作为最终的分类决策。代表性的模型有:随机森林分类器(Random Forest Classifier),在相同的训练数据上同时搭建多棵决策树(Decision Tree)。一株标准的决策树会根据每维特征对预测结果的影响程度进行排序,进而决定不同特征从上至下构建分裂节点的顺序;这样,所有在随机森林中原创 2017-08-18 16:15:05 · 13336 阅读 · 0 评论 -
Python: sklearn库中数据预处理函数fit_transform()和transform()的区别
原文链接对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:涉及到这两个函数的代码如下:[python]view plaincopy#从sklearn.preprocessing导入StandardScaler fromsklearn.preprocessingimp...转载 2017-08-18 16:54:46 · 11554 阅读 · 0 评论 -
KMeans算法-手写数字图像识别
数据聚类是无监督学习的主流应用。最经典并易用的聚类模型,是K-means算法。该算法要求我们预设聚类的个数,然后不断更新聚类中心;经过几轮迭代后,让所有数据点到其所属聚类中心距离的平方和趋于稳定。K-means算法模型介绍:算法执行过程:1.随机设K个特征空间内的点作为初始的聚类中心;2.对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并把该数据标记为从属于这个聚类中心3.在所有的数据都被标记过聚类中心后,根据这些数据新分配的类簇,重新对K个聚类中心进行计算4.如果一轮下来,所原创 2017-08-23 14:09:19 · 20272 阅读 · 1 评论 -
GAN应用汇总
转自 https://blog.csdn.net/qq_25737169/article/details/80874717前言:GAN全称是Generator adversarial networks,中文是生成对抗网络,是一种生成式模型,由good fellow在14年提出,近四年来被AI研究者疯狂研(guan)究(shui),更有大神建立一个GAN zoo,收集了上百种不同的GAN:h...转载 2019-03-05 23:06:34 · 1176 阅读 · 0 评论