《白话大数据和机器学习》学习笔记2

(对聚类、分类、关联分析、用户画像、推荐算法、文本挖掘、人工神经网络的简单了解)

一、聚类
1、k-means算法是基于向量的距离来进行聚类。
首先从N个向量中任意选k个向量,计算其他N-k个向量与k个中心点的距离;
然后把任意向量与它中心距离最近的归为一类,并重新计算每个类的中心向量的位置;
重复上一步骤,计算与中心向量的距离,使得归类漂移小于1%。
此方法要求指定类的数量和初始类的中心。
2、有趣模式是指被易于理解,在某种程度上对新数据或者检验数据有效;孤立点是清洗不当产生或者客观存在,可利用孤立点研究异常来防错。
3、层次聚类分两种:凝聚和分裂。凝聚是指由底向上,把距离最近的聚类成小群,从而一步一步聚类成更大的群;分裂是先把所有样本分为若干大群,再在每一个群里面重新聚类划分。
4、密度聚类是用于形状不规则的情况,通过调整权值、设置阈值和最小向量的方式进行聚类。

二、分类
分类和聚类不同的是:分类是有监督的学习,训练前会给出一个理想的结果,通过不断的训练和学习构建所需的分类器。常用的分类模型有以下:
1、朴素贝叶斯是一种概率计算模型,通过对先验概率和类条件概率密度函数表达式来转化为后验概率,根据后验概率进行决策分类。
公式为:P(A|B)P(B)=P(B|A)P(A)
在scikit-learn库中有现成的朴素贝叶斯算法模型,分别为高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯,不同的模型用于不同类型特征值的分类。
2、决策树分类是一种树形分类结构,包括根节点(样本全集)、叶节点(分类结果)、内部节点(属性测试)。通过对样本进行特征提取来划分最优属性,最后达成分支节点属性相同的效果。常用于决策树分类的算法有:ID3、C4.5、CART(常用于连续数据)
3、 随机森林利用多棵树对样本进行预测,方法为:挑选多个样本,逐一构建N颗树;构建原则为:树的层级比较浅、每棵树的精度不高、一个样本分类时同时对多颗树做分类概率判断。
4、隐马尔可夫模型是基于马尔科夫链,通过观察过程中的隐含参数做进一步分析,进行模式识别。隐马尔可夫模型常用于语音识别领域的解码、CDMA通信和打字提示功能。
5、支持向量机(SVM)适用于模式识别、分类和回归。其通过构造超平面,将两种数据进行分割;但在很多情况下,数据并不是规则分布的,无法线性分割,此时需要对数据进行升维处理。一般使用核函数进行SVM的构造,常用的核函数有:linear/poly/rbf/sigmoid等。
6、遗传算法常用于解决组合优化问题,通过模仿基因遗传,染色体分裂等过程,得出最优组合。先通过对已有的基因进行编码,组成染色体;再随机设计初始群体,进行染色体的分裂和组合,得到下一代;通过自适应度计算剔除不适宜的染色体;重复以上过程直到连续好几代都不再递减则表示收敛。

三、关联分析
关联分析是通过和客观世界互动,发现事件间的因果依赖关系。
频繁模式是表示几种事物频繁无序的出现在一起,常用支持度(所有购买记录中,该模式占多少百分比)、置信度(有方向性的表示,先买和后买的顺序)衡量。
apriori算法:先设置最小支持度阈值进行扫描,剪枝即除去不满足设定支持度的,组合各类单品重新计算支出度再剪枝,使用笛卡尔积寻找各单品三种组合的支持度。

四、用户画像
用户画像是指在数据库或者数据仓库中使用用户信息记录,对信息逐渐丰富完善后,完成对用户的描述。常用作用户画像的方式是打标签,如使用结构化标签(年龄地区浏览记录等)对客户进行区别化服务,使用非结构化标签(RTB)给用户实时投放广告。至于用户画像与实际相比像不像,则需要进行对比和在实践中得到反馈,需记住的是转化率提升0.1%也很高了。

五、推荐算法
推荐算法是根据用户以往的购买记录,推荐易于转化的产品。常用的推荐方式有两种,一是基于用户模型,在用户进店时找到和该用户特征类似的人,推荐其喜欢的产品,此方法需要已知用户特征偏好表;二是给用户推荐他直接喜欢产品的相似产品,此方法需要已知商品相似表。

六、文本挖掘
文本挖掘是指从大量文本中抽取可理解的、有用的知识的过程,常用于搜索和信息监测、文本聚类、文本分类、web挖掘、信息抽取、自然语言处理、概念抽取。
这里简单介绍一下文本分类的几种方式,一是利用分词,基于统计语言模型,通过词义和词之间的逻辑,判断语言意义或情绪,常用的指标有召回率(查全率)和精度(查准率)。二是文本表示,基于空间向量模型转化为特征项的权重,一般根据词频(相对和绝对)进行区分;绝对词频是指用词在文本中的频率。绝对词频是指与其他文章对比很少出现即有很好的区别能力。三是分类标记,分词和分词权重要和分类标签产生一个映射关系。

七、人工神经网络
人工神经网络是模拟人的神经元信息传递方式进行训练的方式,通过训练对树突上的权值进行修正从而达到对应的输出。单细胞人工神经网络可用于手写识别、垃圾邮件分类、金融欺诈行为和网络注册用户是否真实等情况。常用的人工神经网络模型有感知器网络、BP神经网络、SOM(自组织特征映射神经网络)、Hopfield网络、玻尔兹曼机、卷积神经网络。
常用的人工神经网络模型简介:
1、BP神经网络是一种可反向传播的模型,其包含输入层、输出层和隐含层。可以通过反馈不断调节隐含层的权值,优化模型。
2、玻尔兹曼机是模拟退火模型,通过多次迭代,让算法收敛到某个解附近,从而得到全局最优解,此算法是模拟锻造过程中的退火工序。
3、卷积神经网络是前馈神经网络,跳过图像前期的预处理,可以直接输入原始图, 其包含特征提取层和特征映射层,同时使用局部权值共享使得卷积神经网络可以快速处理大量数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值