《白话大数据和机器学习》学习笔记2

最新推荐文章于 2024-09-16 15:07:57 发布

哇我额头好大

最新推荐文章于 2024-09-16 15:07:57 发布

阅读量379

点赞数 1

分类专栏：读书笔记文章标签：分类聚类用户画像人工神经网络

本文链接：https://blog.csdn.net/qq_44304825/article/details/87111683

版权

读书笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

（对聚类、分类、关联分析、用户画像、推荐算法、文本挖掘、人工神经网络的简单了解）

一、聚类
1、k-means算法是基于向量的距离来进行聚类。
首先从N个向量中任意选k个向量，计算其他N-k个向量与k个中心点的距离；
然后把任意向量与它中心距离最近的归为一类，并重新计算每个类的中心向量的位置；
重复上一步骤，计算与中心向量的距离，使得归类漂移小于1%。
此方法要求指定类的数量和初始类的中心。
2、有趣模式是指被易于理解，在某种程度上对新数据或者检验数据有效；孤立点是清洗不当产生或者客观存在，可利用孤立点研究异常来防错。
3、层次聚类分两种：凝聚和分裂。凝聚是指由底向上，把距离最近的聚类成小群，从而一步一步聚类成更大的群；分裂是先把所有样本分为若干大群，再在每一个群里面重新聚类划分。
4、密度聚类是用于形状不规则的情况，通过调整权值、设置阈值和最小向量的方式进行聚类。

二、分类
分类和聚类不同的是：分类是有监督的学习，训练前会给出一个理想的结果，通过不断的训练和学习构建所需的分类器。常用的分类模型有以下：
1、朴素贝叶斯是一种概率计算模型，通过对先验概率和类条件概率密度函数表达式来转化为后验概率，根据后验概率进行决策分类。
公式为：P(A|B)P(B)=P(B|A)P(A)
在scikit-learn库中有现成的朴素贝叶斯算法模型，分别为高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯，不同的模型用于不同类型特征值的分类。
2、决策树分类是一种树形分类结构，包括根节点（样本全集）、叶节点（分类结果）、内部节点（属性测试）。通过对样本进行特征提取来划分最优属性，最后达成分支节点属性相同的效果。常用于决策树分类的算法有：ID3、C4.5、CART（常用于连续数据）
3、随机森林利用多棵树对样本进行预测，方法为：挑选多个样本，逐一构建N颗树；构建原则为：树的层级比较浅、每棵树的精度不高、一个样本分类时同时对多颗树做分类概率判断。
4、隐马尔可夫模型是基于马尔科夫链，通过观察过程中的隐含参数做进一步分析，进行模式识别。隐马尔可夫模型常用于语音识别领域的解码、CDMA通信和打字提示功能。
5、支持向量机（SVM）适用于模式识别、分类和回归。其通过构造超平面，将两种数据进行分割；但在很多情况下，数据并不是规则分布的，无法线性分割，此时需要对数据进行升维处理。一般使用核函数进行SVM的构造，常用的核函数有：linear/poly/rbf/sigmoid等。
6、遗传算法常用于解决组合优化问题，通过模仿基因遗传，染色体分裂等过程，得出最优组合。先通过对已有的基因进行编码，组成染色体；再随机设计初始群体，进行染色体的分裂和组合，得到下一代；通过自适应度计算剔除不适宜的染色体；重复以上过程直到连续好几代都不再递减则表示收敛。

三、关联分析
关联分析是通过和客观世界互动，发现事件间的因果依赖关系。
频繁模式是表示几种事物频繁无序的出现在一起，常用支持度（所有购买记录中，该模式占多少百分比）、置信度（有方向性的表示，先买和后买的顺序）衡量。
apriori算法：先设置最小支持度阈值进行扫描，剪枝即除去不满足设定支持度的，组合各类单品重新计算支出度再剪枝，使用笛卡尔积寻找各单品三种组合的支持度。

四、用户画像
用户画像是指在数据库或者数据仓库中使用用户信息记录，对信息逐渐丰富完善后，完成对用户的描述。常用作用户画像的方式是打标签，如使用结构化标签（年龄地区浏览记录等）对客户进行区别化服务，使用非结构化标签（RTB）给用户实时投放广告。至于用户画像与实际相比像不像，则需要进行对比和在实践中得到反馈，需记住的是转化率提升0.1%也很高了。

五、推荐算法
推荐算法是根据用户以往的购买记录，推荐易于转化的产品。常用的推荐方式有两种，一是基于用户模型，在用户进店时找到和该用户特征类似的人，推荐其喜欢的产品，此方法需要已知用户特征偏好表；二是给用户推荐他直接喜欢产品的相似产品，此方法需要已知商品相似表。

六、文本挖掘
文本挖掘是指从大量文本中抽取可理解的、有用的知识的过程，常用于搜索和信息监测、文本聚类、文本分类、web挖掘、信息抽取、自然语言处理、概念抽取。
这里简单介绍一下文本分类的几种方式，一是利用分词，基于统计语言模型，通过词义和词之间的逻辑，判断语言意义或情绪，常用的指标有召回率（查全率）和精度（查准率）。二是文本表示，基于空间向量模型转化为特征项的权重，一般根据词频（相对和绝对）进行区分；绝对词频是指用词在文本中的频率。绝对词频是指与其他文章对比很少出现即有很好的区别能力。三是分类标记，分词和分词权重要和分类标签产生一个映射关系。

七、人工神经网络
人工神经网络是模拟人的神经元信息传递方式进行训练的方式，通过训练对树突上的权值进行修正从而达到对应的输出。单细胞人工神经网络可用于手写识别、垃圾邮件分类、金融欺诈行为和网络注册用户是否真实等情况。常用的人工神经网络模型有感知器网络、BP神经网络、SOM（自组织特征映射神经网络）、Hopfield网络、玻尔兹曼机、卷积神经网络。
常用的人工神经网络模型简介：
1、BP神经网络是一种可反向传播的模型，其包含输入层、输出层和隐含层。可以通过反馈不断调节隐含层的权值，优化模型。
2、玻尔兹曼机是模拟退火模型，通过多次迭代，让算法收敛到某个解附近，从而得到全局最优解，此算法是模拟锻造过程中的退火工序。
3、卷积神经网络是前馈神经网络，跳过图像前期的预处理，可以直接输入原始图，其包含特征提取层和特征映射层，同时使用局部权值共享使得卷积神经网络可以快速处理大量数据。