机器学习入门
数据挖掘、机器学习入门教程,0基础可学
天涯泪小武
开源贡献者,有代码洁癖。京东coder。
展开
-
让DeepLearning4j阅读小说并给出关联度最高的词
DeepLearning4j是一个java的神经网络框架,便于java程序员使用神经网络来完成一些机器学习工程。不管什么机器学习框架,NLP是一个不能不谈的领域,DL4J也提供了nlp的相关实现。其中入门的例子就是从一大堆文字中找到最相关的词。我们先来看看官方的demo,然后再模仿一个类似的程序,只不过是阅读中文的小说。官方的demo叫Word2VecRawTextExample,我们直接新建一个...原创 2018-07-02 10:46:30 · 4122 阅读 · 1 评论 -
神经网络的激活函数总结
转载自:https://my.oschina.net/amui/blog/1633904激活函数的意义(需要激活函数的理由)激活函数是神经网络的一个重要组成部分。如果不用激活函数(即相当于激活函数为f(x)=x),在这种情况下,网络的每一层的输入都是上一层的线性输出,因此,无论该神经网络有多少层,最终的输出都是输入的线性组合,与没有隐藏层的效果相当,这种情况就是最原始的感知机。正因为上面的原因,才...转载 2018-06-22 16:19:07 · 14690 阅读 · 2 评论 -
2 机器学习入门——逻辑回归之kaggle泰坦尼克号竞赛
前面几篇逻辑回归的例子有些是人造出来的,有些是比较正规的,但数据都比较完整,没有缺失的属性。虽然我们在很多数据上取到的非常好的效果,但总感觉好像不够味,不像实战。所有的数据下载地址:https://gitee.com/tianyalei/machine_learning,按对应章节查找。那么这里有个地方给带给你想要的实战——Kaggle数据分析建模的应用竞赛平台,企业或者研究者可以将问题背景、数据...原创 2018-06-14 20:23:18 · 14793 阅读 · 3 评论 -
3 机器学习入门——决策树之天气预报、鸢尾花
前面我们简单学习了线性回归、逻辑回归,不知道有没有做一个总结,那就是什么时候该用逻辑回归?从结果来观察,可以看到,线性回归的过程就是在找那个合适的方程,来尽量满足你的每行数据。即Y=ax + bx^2 + …….通过算法来寻找合适的a、b、c。一般来说,线性回归适用于最终结果和各属性之间有数值上的关系,能通过一系列的组合,得出一个规律。当然,实际在应用中,我们一般不管什么数据集,都先跑一遍逻辑(线...原创 2018-06-15 15:55:50 · 6648 阅读 · 1 评论 -
逻辑回归,决策树,支持向量机 选择方案
转载自:https://blog.csdn.net/oliverkehl/article/details/50129999这一篇讲的非常形象,直接转载了。逻辑回归 vs 决策树 vs 支持向量机原文 part1 原文 part2分类是我们在工业界经常遇到的场景,本文探讨了3种常用的分类器,逻辑回归LR,决策树DT和支持向量机SVM。这三个算法都被广泛应用于分类(当然LR,DT和SVR也可以用于回归...转载 2018-06-15 19:42:38 · 5563 阅读 · 1 评论 -
4 机器学习入门——分类和最近邻
前面学过了简单的回归和决策树,当然仅仅是使用起来简单。实际上,线性回归和决策树是很多其他算法的基础,很多高级的算法都是基于它们的组合或者变种。下面我们来看一个另外的东西,叫分类。基于回归和决策树,我们能通过给定的数据来预测一些未知结果的数据,模型能给我们输出一个可供参考的结果值。但有些时候这些数据并不能满足我们的所有好奇心。譬如一个BMW经销店,我们的目的是研究它如何能增加销售。已有的数据是其过去...原创 2018-06-17 17:24:26 · 981 阅读 · 0 评论 -
Weka中分类器指标的说明
Mean absolute error 和 Root mean squared error: 平均绝对误差,用来衡量分类器预测值和实际结果的差异,越小越好。Relative absolute error 和 Root relative squared error:举个例子来说明:实际值为500,预测值为450,则绝对误差为50;实际值为2,预测值为1.8,则绝对误差为0.2。这两个数字50和0.2...原创 2018-06-06 16:59:54 · 5333 阅读 · 1 评论 -
数据预处理和weka.filters的使用
转载自:https://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html上一篇介绍了arff格式,这是weka专有格式,一般情况需要我们从其他数据源抽取或者获得。weka支持从cvs转化,也可以从数据库中抽取,界面如下图weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习。导入了数据仅仅是一个开始,我们还需要对数据进行...转载 2018-06-06 20:10:56 · 2973 阅读 · 0 评论 -
机器学习特征工程——给任意属性增加任意次方的全组合
在机器学习中,我们时常会碰到需要给属性增加字段的情况。譬如有x、y两个属性,当结果倾向于线性时,我们可以很简单的通过线性回归得到模型。但很多时候,线性(在数学上称为多元一次方程),线性是拟合不了结果的。往往,我们就需要在给定的几个属性上,通过增加属性来尝试能否拟合。那么原本只有两列,x、y,我们增加2次方的属性后,就会变成x、y、x^2、x*y、y^2,变成了5个属性,根据以往经验,我们知道通过这...原创 2018-06-05 14:01:44 · 1227 阅读 · 0 评论 -
1 机器学习入门——线性回归第一课
先来上例子吧,让我们来感受一下什么是机器学习。我们先给出一批数据,它们长这样:x,y1,22,43,64,8……此时,我们希望你能预测一下,当x是1万时,y的值。如果你具备初中以上的数学知识,聪明的你可能已经能给出答案了。是的,结果是2万。至少在这个层面,你已经超越了机器。因为你只需要看几秒,就能给出非常靠谱的预测值。这是一个非常好的开端,证明你完全具备搞定机器学习的能力。机器在看到这一堆数字时,...原创 2018-06-06 11:42:50 · 1080 阅读 · 0 评论 -
1 机器学习入门——线性回归第二课
1 house价格,多属性线性回归2 bank_data,多项式3 红酒预测线性回归可以说是最简单的机器学习入门了,上一篇我们使用了一个最简单的模型,只有一个变量,只有一次方。机器很完美的给出了模型和正确的结论。这一篇我们来看看一些复杂的情况。所有的数据多个变量线性回归人们能立即想到的一个例子就是给房子定价。房子的价格(因变量)是很多自变量 — 房子的面积、占地的大小、厨房是否有花岗石以及卫生间是...原创 2018-06-06 20:02:47 · 676 阅读 · 0 评论 -
1 机器学习入门——线性回归第三课
上一篇我们看到了线性回归在对多个属性建模时,能迅速给出模型预测,但很多时候效果并不太美好。毕竟方法太简单了,而且很多时候已有的属性很难拟合到一起形成比较靠谱的结果。所有的数据下载地址:https://gitee.com/tianyalei/machine_learning,按对应章节查找。再回过头来看看上个例子,创建一个能基于汽车的几个特性来推测其油耗(每加仑英里数,MPG)的回归模型(请务必记住...原创 2018-06-07 11:10:36 · 833 阅读 · 0 评论 -
2 机器学习入门——逻辑回归第一课
前几篇都是讲线性回归的,特点就是最终的结果是一系列的值。我们通过找到合适的方程去匹配空间中的点的分布,得到合适的模型,然后用模型对未知的数据结果进行预测。二维线性模型就像下面的图,我们需要找到这根蓝色的线的方程。现实生活中,我们还会有另一个常见的问题,就是分类。判断一个物体是大还是小,是高还是低,是不是垃圾邮件,这些都是只有2个答案的分类问题。还有一些复杂点的,有好几个答案,也适用于这种。逻辑回归...原创 2018-06-07 15:25:26 · 800 阅读 · 0 评论 -
2 机器学习入门——逻辑回归第二课
我们来看看逻辑回归处理样本数据的案例,假如说要分类的样本长这样所有的数据下载地址:https://gitee.com/tianyalei/machine_learning,按对应章节查找。这是一个最简单的二维平台线性关系,数据集是data1.csv。长这个样子:a,b,result34.62365962451697,78.0246928153624,030.28671076822607,43....原创 2018-06-07 16:13:56 · 592 阅读 · 0 评论 -
2 机器学习入门——逻辑回归第三课
这一篇我们拿一些实例来看看。所有的数据下载地址:https://gitee.com/tianyalei/machine_learning,按对应章节查找。还是要提醒一句,逻辑回归很简单,很多时候效果可以,但不够优秀,可以作为BaseLine。在选择算法前,可以先观察数据,根据经验推断是否符合线性(直线、曲线、圆形、抛物线等等),只要是比较连续的,能用线隔开的,一般逻辑回归都能给出一个还算凑合的答案...原创 2018-06-07 19:47:38 · 663 阅读 · 0 评论