机器学习教程
jiangjingxuan
这个作者很懒,什么都没留下…
展开
-
一、不懂这些线性代数知识 别说你是搞机器学习的
数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念,数学不只是上学时用来考试的,也是工作中必不可少的基础知识,实际上有很多有趣的数学门类在学校里学不到,有很多拓展类的数据能让我们发散思维,但掌握最基本的数学知识是前提,本文就以线性代数的各种词条来做一下预热,不懂的记得百度一下。请尊重原创,转载请注明来源网站www.shareditor.com以及转载 2017-01-25 09:44:47 · 10435 阅读 · 0 评论 -
十五、细解卷积神经网络
深度学习首先要讲的就是卷积神经网络,因为卷积神经网络沿用了之前讲过的多层神经网络的具体算法,同时在图像识别领域得到了非常好的效果。本节介绍它的数学原理和一些应用中的问题解决方案,最后通过公式讲解样本训练的方法请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址卷积运算再次引用上一篇里的内容《自己动手做聊天机器人 二十二-神奇算法之人工神经网络》:卷积英转载 2017-01-25 10:26:12 · 548 阅读 · 0 评论 -
十六、深究熵的概念和公式以及最大熵原理
在机器学习算法中,最常用的优化方式就是使熵最大,那么到底什么是熵呢?很多文章告诉了我们概念和公式,但是很少有人讲到这些公式都是怎么来的,那么就让我们来深究一下这里面的奥秘请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址熵有关熵的介绍,我在《自己动手做聊天机器人 十五-一篇文章读懂拿了图灵奖和诺贝尔奖的概率图模型》中做过简单的介绍,熵的英文是entrop转载 2017-01-25 10:26:47 · 7906 阅读 · 0 评论 -
十七、逻辑回归公式的数学推导
机器学习中一些重要的公式,比如逻辑回归概率公式,多数情况下我们知道何时拿来用,但是它们都是怎么得来的呢,本节让我们详细探讨下请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址逻辑回归中的数学推导逻辑回归模型是基于这样的逻辑分布得出的模型F(x) = 1/(1+e^x)由此也得出了二项逻辑回归分布是:P(Y=1|x) = e^(wx+b)/(1转载 2017-01-25 10:27:18 · 749 阅读 · 0 评论 -
十八、R语言特征工程实战
特征工程是机器学习过程中和模型训练同样重要的部分,特征如何提取、如何处理、如何选择、如何使用都是特征工程的范畴,特征工程需要具备数据分析的能力,那些称为数据科学家的人一定是有很强的特征工程能力的人。R语言是大数据领域的主流语言之一,本文主要介绍用R语言的图形工具做特征工程的实战方法请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址R语言介绍熟悉R语言的朋转载 2017-01-25 10:28:01 · 4864 阅读 · 0 评论 -
二十、看数据科学家是如何找回丢失的数据的(二)
在做特征工程过程中,经常遇到某些样本缺失了某个特征的值,影响我们的机器学习过程,如果是较小的样本集我们一般不会直接舍弃这些样本,而是利用有效的手段把丢失的数据找回来,他们是怎么找回的呢?本节我们通过实例讲几种缺失值补全的方法请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址连续型变量是如何做数据填补的上一节中讲的Embarked的填补是一种离散型变量的填转载 2017-01-25 10:29:10 · 564 阅读 · 0 评论 -
二十一、R语言炫技必备基本功
R语言主要用于统计分析和绘图,可以理解为是一种数学计算软件,可编程,有很多有用的函数库和数据集,它强大的作图工具是做数据分析的好帮手,在高手如云的大数据江湖中,不炫个技都不敢说自己是江湖中人,那么我们就看看想要炫技需要掌握哪些基本功吧请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址注意:本文中实际使用的样本数据是根据具体命令任意挑选某组样本数据,不具有针对转载 2017-01-25 10:29:50 · 1138 阅读 · 0 评论 -
二十二、一小时掌握R语言数据可视化
ggplot2是R语言最为强大的作图软件包,有着自成一派的可视化理念,数据可视化是数据分析的重要一步,让我们通过由浅入深的掌握数据可视化的精髓。请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址展开一张画布ggplot2和其他作图工具不同,它是以图层覆盖图层的方式画出一个完美图像的,就像是photoshop里的图层,那么首先我们得有一张画布(如果没有安装转载 2017-01-25 10:30:33 · 3652 阅读 · 0 评论 -
二十三、R语言强大工具包ggplot绘图以外的那些事
ggplot是R语言最为强大的作图软件包,除了绘图本身的功能之外,还有很多绘图周边的细节需要掌握才能绘出一张完美的图像,本节我们围绕绘图周边来详细讲解请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址画布定位先看这张图:> x > y > data > ggplot(data, aes(x = x, y = y)) + geom_point()转载 2017-01-25 10:31:14 · 3261 阅读 · 0 评论 -
十九、看数据科学家是如何找回丢失的数据的(一)
在做特征工程过程中,经常遇到某些样本缺失了某个特征的值,影响我们的机器学习过程,如果是较小的样本集数据科学家可不会直接舍弃这些样本,而是利用有效的手段把丢失的数据找回来,他们是怎么找回的呢?我接下来的几篇文章会通过实例讲几种缺失值补全的方法请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址补全数据的纯手工方案我们以泰坦尼克号数据集为例(不了解这个数据集请转载 2017-01-25 10:28:34 · 559 阅读 · 0 评论 -
十四、利用tensorflow做手写数字识别
模式识别领域应用机器学习的场景非常多,手写识别就是其中一种,最简单的数字识别是一个多类分类问题,我们借这个多类分类问题来介绍一下google最新开源的tensorflow框架,后面深度学习的内容都会基于tensorflow来介绍和演示请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址什么是tensorflowtensor意思是张量,flow是流。张量转载 2017-01-25 10:25:36 · 3091 阅读 · 0 评论 -
十三、用scikit-learn做逻辑回归
一元线性、多元线性、多项式回归都属于广义的线性回归,这几类线性回归主要用于预测连续变量的值。本节介绍广义线性回归的另一种主要用于分类任务的形式:逻辑回归请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址二类分类问题逻辑回归最广泛的应用就是二类分类,我们以脏话判别为例来利用逻辑回归,对一句话做脏话分析判断输入样本如下:是脏话:fuck you是转载 2017-01-25 10:24:53 · 862 阅读 · 0 评论 -
十二、神经网络模型的原理
深度学习最近火的不行,因为在某些领域应用的效果确实很好,深度学习本质上就是机器学习的一个topic,是深度人工神经网络的另一种叫法,因此理解深度学习首先要理解人工神经网络请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址人工神经网络人工神经网络又叫神经网络,是借鉴了生物神经网络的工作原理形成的一种数学模型。下面是一张生物神经元的图示:生物神经网络转载 2017-01-25 10:23:56 · 1383 阅读 · 0 评论 -
二、安装octave绘制3D函数图像
octave是类似于matlab的软件,matlab的缺点是贵,octave作为免费的开源项目,能够绘制三维图形,是用来做大数据统计分析的绝佳工具,也是AndrewNG在机器学习课程中强烈推荐的工具 请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址安装方式mac系统安装教程在:http://wiki.octave.org/Octave_fo转载 2017-01-25 09:46:15 · 5722 阅读 · 0 评论 -
三、用scikit-learn求解一元线性回归问题
一元线性回归是最简单的一种模型,但应用广泛,比如简单地预测商品价格、成本评估等,都可以用一元线性模型,本节主要讲解scikit-learn一元线性回归的使用以及作图说明请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址一元线性回归y=f(x)叫做一元函数,回归的意思就是根据已知数据复原某些值,线性回归(regression)就是用线性的模型做回归复原。转载 2017-01-25 10:18:42 · 1384 阅读 · 0 评论 -
四、用scikit-learn求解多元线性回归问题
一般情况下,一个因变量是和多个自变量有关的,比如一个商品的价格和原料价格、加工方法、上市时间、品牌价值等有关,也就是多元线性,本节介绍如何用scikit-learn解决多元线性回归问题请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址多元线性回归模型方程:Y=Xβ 求解多元线性回归问题就是求解β:因为X不一定是方阵,所以不能直接β=X-1Y两转载 2017-01-25 10:19:26 · 3292 阅读 · 0 评论 -
五、用matplotlib绘制精美的图表
matplotlib是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。本节通过几个样例来介绍下如何使用matplotlib绘制精美的图表请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址安装方法pip install matplotlib 绘制一元函数图像y=ax+b创建single_var转载 2017-01-25 10:19:56 · 1650 阅读 · 0 评论 -
七、用随机梯度下降法(SGD)做线性拟合
scikit-learn的线性回归模型都是通过最小化成本函数来计算参数的,通过矩阵乘法和求逆运算来计算参数。当变量很多的时候计算量会非常大,因此我们改用梯度下降法,批量梯度下降法每次迭代都用所有样本,快速收敛但性能不高,随机梯度下降法每次用一个样本调整参数,逐渐逼近,效率高,本节我们来利用随机梯度下降法做拟合请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址转载 2017-01-25 10:20:55 · 1586 阅读 · 0 评论 -
八、用scikit-learn做特征提取
现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址分类变量的特征提取比如城市作为一个特征,那么就是一系列散列的城市标记,这类特征我们用二进制编码来表示,是这个城市为1,不是这个城市为0比如有三个城市:北京、天津、上海,转载 2017-01-25 10:21:24 · 900 阅读 · 0 评论 -
九、二元分类效果的评估方法
效果评估是模型选择和算法设计的重要步骤,知道评估优劣才能选择最佳的模型和算法,本节介绍一些有关评估方法的定义,凡是在统计或大数据领域都用得到请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址真阳性true positives, TP真阴性true negatives, TN假阳性false positives, FP假阴性 fal转载 2017-01-25 10:22:07 · 591 阅读 · 0 评论 -
十、用scikit-learn的网格搜索快速找到最优模型参数
任何一种机器学习模型都附带很多参数,不同场景对应不同的最佳参数,手工尝试各种参数无疑浪费很多时间,scikit-learn帮我们实现了自动化,那就是网格搜索请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址网格搜索这里的网格指的是不同参数不同取值交叉后形成的一个多维网格空间。比如参数a可以取1、2,参数b可以取3、4,参数c可以取5、6,那么形成的多维网转载 2017-01-25 10:22:32 · 3266 阅读 · 0 评论 -
十一、用scikit-learn做聚类分析
线性回归和逻辑回归都是监督学习方法,聚类分析是非监督学习的一种,可以从一批数据集中探索信息,比如在社交网络数据中可以识别社区,在一堆菜谱中识别出菜系。本节介绍K-means聚类算法请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址K-meansk是一个超参数,表示要聚类成多少类。K-means计算方法是重复移动类的重心,以实现成本函数最小化,成本函数为:转载 2017-01-25 10:23:18 · 1588 阅读 · 0 评论 -
六、用scikit-learn求解多项式回归问题
多元真实情况未必是线性的,有时需要增加指数项,也就是多项式回归,现实世界的曲线关系都是通过增加多项式实现的,本节介绍用scikit-learn解决多项式回归问题请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址住房价格样本 样本 面积(平方米) 价格(万元)样本面积(平方米) 价格(万元)150150转载 2017-01-25 10:20:28 · 4063 阅读 · 0 评论