机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定的场景的决策。
机器学习的典型应用
1、关联规则:购物篮分析—>在订单中查看哪些商品是同时被购买的,啤酒+尿片。
2、聚类:用户细分精准营销—>移动:神州大众卡、全球通、动感地带、神州行
3、朴素贝叶斯:垃圾邮件识别
4、决策树:信用卡欺诈
5、crt预估:互联网广告
协同过滤,推荐系统
6、自然语言处理:情感分析—>一段文本积极or消极;实体识别—>一段文本中把人名找出来
更多应用:语音识别、智慧机器人、个性化医疗、私人虚拟助理、情感分析、手势控制、人脸识别、视频内容自动识别、自动驾驶、机器实时翻译。
机器学习算法分类
一、有监督学习:分类算法、回归算法
无监督学习:聚类
半监督学习:有一部分y值,一开始训练的效果不好,但随着样本增多,效果越来越好
二、分类与回归
聚类
标注:一句话中哪些是形容词、动词、名词(给袁术做一个标签)
三、生成模型:属于某个类别的概率
判别模型:给一个函数,把数据丢给函数,给出一个判别
它们都属于分类问题。
机器学习常见算法
1、分类:C4.5、knn、Naive Bayes、cart
2、聚类:k-means
3、统计学习:SVM、EM
4、关联分析:Apriori
5、链接挖掘:PageRank
6、集装与改进:AdaBoost
C4.5和cart都属于决策树算法,该算法既可以解决分类问题,也可以解决回归问题。
SVM可解决分类与回归问题,主要解决分类问题。
Apriori:多次访问数据库,代价高;FP-growth:美籍华人发明的,只需两次访问数据库进行频繁项集挖掘。
AdaBoost:人脸识别,本质上决策树的改进版,有监督。
knn:有监督。
机器学习解决问题的框架
一、确定目标:业务需求、数据、特征工程
二、训练模型:定义模型、定义损失函数、优化算法
三、模型评估:交叉验证、效果评估
一、决策树
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,它属于有监督学习。
机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。
随机森林分类器将许多决策树结合起来以提升分类的正确率。
决策树的剪枝
剪枝是决策树停止分支的方法之一,剪枝有预先剪枝和后剪枝两种。
预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视野局限”,一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。
后剪枝中树要充分生长,直到叶节点中都有最小的不纯度值为止,因而克服“视野局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。
优点:克服了“视野局限”效应,而且无需保留部分样本用于交叉验证,可以充分利用全部训练集信息。但是计算量代价大,对于小样本的情况,后剪枝方法优于预先剪枝方法。
不纯度:分类不正确的概率。
决策树算法的缺点:
1)对连续性的字段比较难预测
2)对有时间顺序的数据,需要很多预处理的工作
3)当类别太多时,错误可能就会增加的比较快
4)一般的算法分类的时候,知识根据一个字段来分类
二、聚类
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。
三、逻辑回归(有监督)
用于估计某种事物的可能性,它是一个非线性模型,sigmoid函数又称逻辑回归函数。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但二分类更为常用。主要用途:
1)寻找危险因素:寻找某一疾病的危险因素
2)预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
3)判别:跟预测有些类似,也是根据模型判断某人属于某病或属于某种情况的概率有多大。
Logistic回归主要在流行病中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病的发生概率。
逻辑回归和线性回归的区别:
逻辑回归:y=sigmoid(w'*x)
线性回归:y=w'*x
也就是逻辑回归比线性回归多了一个sigmoid函数,sigmoid(x)=1/(1+exp(-x)),其实就是对x进行归一化操作,使得sigmoid(x)位于0~1。
逻辑回归通常用于二分类模型,目标函数是二类交叉熵,y的值表示属于第一类的概率,用户可以自己设置一个分类阈值,线性回归用来拟合数据,目标函数是平方和误差。
四、关联分析
关联分析又成为关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析时发现交易数据库中不同商品(项)之间的联系,典型例子就是购物篮分析,分析顾客购买习惯。
Apriori、FP-Growth算法:频繁项集,在频繁项集里面挖掘出大于最小置信度阈值的关联规则。
五、卷积神经网络(CNN)
CNN是一种典型的多层监督学习神经网络,主要包括卷积层、池化层、全链接层。
CNN能在各种实验中获得较好的结果:它采用局部连接和权值共享两种连接方式。局部连接是指每一层网络的神经元只与其上一层的一个方形邻域内的神经单元连接,通过卷积块赋予每个神经元权重,从而提取出特征。共享权值表示同一个特征图所对应的神经元公用相同的权值,可减少所需要训练参数的数量。
1、如何减少参数:权值共享
如何防治过拟合:增加数据,减少模型复杂度—>正则化
2、大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。5V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
3、Hadoop是一个由Apache基金会所开发的分布式基础架构。Hadoop实现了一个分布式文件系统,简称HDFS,为海量数据提供存储,HDFS具有高容错的特点;MapReduce为海量数据提供计算。
4、过拟合分类器能够百分之百正确分类样本数据,使它的构造精细复杂,规则严格,以至于任何与样本数据稍微不同的数据都认为不属于这个类别。
5、VC维反映了函数集的学习能力,VC维越大,则学习机器越复杂(容量越大),函数集的VC维就是它能打散的最大样本数目H。
6、为什么之前没有深度网络的出现?数据量不够、机器性能低