《白话大数据和机器学习》学习笔记2

(对聚类、分类、关联分析、用户画像、推荐算法、文本挖掘、人工神经网络的简单了解)

一、聚类
1、k-means算法是基于向量的距离来进行聚类。
首先从N个向量中任意选k个向量,计算其他N-k个向量与k个中心点的距离;
然后把任意向量与它中心距离最近的归为一类,并重新计算每个类的中心向量的位置;
重复上一步骤,计算与中心向量的距离,使得归类漂移小于1%。
此方法要求指定类的数量和初始类的中心。
2、有趣模式是指被易于理解,在某种程度上对新数据或者检验数据有效;孤立点是清洗不当产生或者客观存在,可利用孤立点研究异常来防错。
3、层次聚类分两种:凝聚和分裂。凝聚是指由底向上,把距离最近的聚类成小群,从而一步一步聚类成更大的群;分裂是先把所有样本分为若干大群,再在每一个群里面重新聚类划分。
4、密度聚类是用于形状不规则的情况,通过调整权值、设置阈值和最小向量的方式进行聚类。

二、分类
分类和聚类不同的是:分类是有监督的学习,训练前会给出一个理想的结果,通过不断的训练和学习构建所需的分类器。常用的分类模型有以下:
1、朴素贝叶斯是一种概率计算模型,通过对先验概率和类条件概率密度函数表达式来转化为后验概率,根据后验概率进行决策分类。
公式为:P(A|B)P(B)=P(B|A)P(A)
在scikit-learn库中有现成的朴素贝叶斯算法模型,分别为高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯,不同的模型用于不同类型特征值的分类。
2、决策树分类是一种树形分类结构,包括根节点(样本全集)、叶节点(分类结果)、内部节点(属性测试)。通过对样本进行特征提取来划分最优属性,最后达成分支节点属性相同的效果。常用于决策树分类的算法有:ID3、C4.5、CART(常用于连续数据)
3、 随机森林利用多棵树对样本进行预测,方法为:挑选多个样本,逐一构建N颗树;构建原则为:树的层级比较浅、每棵树的精度不高、一个样本分类时同时对多颗树做分类概率判断。
4、隐马尔可夫模型是基于马尔科夫链,通过观察过程中的隐含参数做进一步分析,进行模式识别。隐马尔可夫模型常用于语音识别领域的解码、CDMA通信和打字提示功能。
5、支持向量机(SVM)适用于模式识别、分类和回归。其通过构造超平面,将两种数据进行分割;但在很多情况下,数据并不是规则分布的,无法线性分割,此时需要对数据进行升维处理。一般使用核函数进行SVM的构造,常用的核函数有:linear/poly/rbf/sigmoid等。
6、遗传算法常用于解决组合优化问题,通过模仿基因遗传,染色体分裂等过程,得出最优组合。先通过对已有的基因进行编码,组成染色体;再随机设计初始群体,进行染色体的分裂和组合,得到下一代;通过自适应度计算剔除不适宜的染色体;重复以上过程直到连续好几代都不再递减则表示收敛。

三、关联分析
关联分析是通过和客观世界互动,发现事件间的因果依赖关系。
频繁模式是表示几种事物频繁无序的出现在一起,常用支持度(所有购买记录中,该模式占多少百分比)、置信度(有方向性的表示,先买和后买的顺序)衡量。
apriori算法:先设置最小支持度阈值进行扫描,剪枝即除去不满足设定支持度的,组合各类单品重新计算支出度再剪枝,使用笛卡尔积寻找各单品三种组合的支持度。

四、用户画像
用户画像是指在数据库或者数据仓库中使用用户信息记录,对信息逐渐丰富完善后,完成对用户的描述。常用作用户画像的方式是打标签,如使用结构化标签(年龄地区浏览记录等)对客户进行区别化服务,使用非结构化标签(RTB)给用户实时投放广告。至于用户画像与实际相比像不像,则需要进行对比和在实践中得到反馈,需记住的是转化率提升0.1%也很高了。

五、推荐算法
推荐算法是根据用户以往的购买记录,推荐易于转化的产品。常用的推荐方式有两种,一是基于用户模型,在用户进店时找到和该用户特征类似的人,推荐其喜欢的产品,此方法需要已知用户特征偏好表;二是给用户推荐他直接喜欢产品的相似产品,此方法需要已知商品相似表。

六、文本挖掘
文本挖掘是指从大量文本中抽取可理解的、有用的知识的过程,常用于搜索和信息监测、文本聚类、文本分类、web挖掘、信息抽取、自然语言处理、概念抽取。
这里简单介绍一下文本分类的几种方式,一是利用分词,基于统计语言模型,通过词义和词之间的逻辑,判断语言意义或情绪,常用的指标有召回率(查全率)和精度(查准率)。二是文本表示,基于空间向量模型转化为特征项的权重,一般根据词频(相对和绝对)进行区分;绝对词频是指用词在文本中的频率。绝对词频是指与其他文章对比很少出现即有很好的区别能力。三是分类标记,分词和分词权重要和分类标签产生一个映射关系。

七、人工神经网络
人工神经网络是模拟人的神经元信息传递方式进行训练的方式,通过训练对树突上的权值进行修正从而达到对应的输出。单细胞人工神经网络可用于手写识别、垃圾邮件分类、金融欺诈行为和网络注册用户是否真实等情况。常用的人工神经网络模型有感知器网络、BP神经网络、SOM(自组织特征映射神经网络)、Hopfield网络、玻尔兹曼机、卷积神经网络。
常用的人工神经网络模型简介:
1、BP神经网络是一种可反向传播的模型,其包含输入层、输出层和隐含层。可以通过反馈不断调节隐含层的权值,优化模型。
2、玻尔兹曼机是模拟退火模型,通过多次迭代,让算法收敛到某个解附近,从而得到全局最优解,此算法是模拟锻造过程中的退火工序。
3、卷积神经网络是前馈神经网络,跳过图像前期的预处理,可以直接输入原始图, 其包含特征提取层和特征映射层,同时使用局部权值共享使得卷积神经网络可以快速处理大量数据。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 白话机器学习的数学pdf是一本以易懂的语言讲解机器学习中涉及的数学概念和算法的PDF教材。 在机器学习中,数学是一门非常重要的学科。它涵盖了许多基本的数学概念,如线性代数、微积分和概率论。这些数学概念在理解和应用各种机器学习算法时至关重要。 这本PDF教材以白话的方式解释了这些数学概念,使读者能够轻松理解和学习。它通过易懂的例子和图示来说明每个概念的含义和应用,帮助读者建立直观的认识。 PDF教材的内容包括线性代数的基本概念,如向量、矩阵和线性方程组,并解释了这些概念在机器学习中的应用,如特征向量和数据降维。 此外,PDF教材还讲解了微积分的概念和应用,如最优化问题和梯度下降算法。这些是机器学习中常用的算法,通过学习微积分,读者可以深入理解这些算法的原理和实现方式。 概率论也是机器学习中不可或缺的一部分,PDF教材简明扼要地介绍了概率的基本概念和常见的概率分布。它还解释了贝叶斯推断和朴素贝叶斯分类器在机器学习中的应用。 总的来说,这本白话机器学习的数学pdf以简单易懂的方式解释了机器学习中数学的基本概念和算法。它适合初学者学习和入门,也可以作为复习和回顾的参考资料。 ### 回答2: 白话机器学习的数学PDF是一本以简明易懂的语言阐述机器学习中涉及的数学原理和概念的电子书。它旨在帮助读者更好地理解机器学习算法背后的数学基础,为他们提供一个轻松的学习资源。 这本书首先介绍了机器学习的基本概念和应用领域,然后逐步深入到数学原理。它包括了涵盖机器学习所需的一系列数学概念,如线性代数、概率论、统计学和优化理论。 在书中,数学原理的阐述遵循了白话风格,尽可能用通俗的语言解释复杂的数学概念。它避免使用过多的数学符号和公式,而是通过图表和实际案例来讲解,以增加读者的理解和兴趣。 除了数学原理的介绍,这本PDF还提供了一些机器学习算法的实际应用示例和编程实践。这有助于读者将所学的数学知识应用到实际问题中,并加深对机器学习的理解。 总而言之,白话机器学习的数学PDF是一本适合初学者和希望巩固数学基础的机器学习爱好者阅读的书籍。它通过简单易懂的语言讲解了机器学习所需的数学知识,帮助读者更好地掌握机器学习算法的原理和应用。 ### 回答3: 白话机器学习的数学PDF是一份以简单易懂的语言解释机器学习中所涉及的数学概念和方法的文档。机器学习是一门将数学、统计学和计算机科学相结合的学科,因此理解其中的数学原理是非常重要的。 这份PDF将数学概念和方法以白话的方式呈现,使得读者可以更轻松地理解和学习。它包含了机器学习中常用的数学概念,如线性代数、统计学和概率论等。读者可以在其中找到关于向量、矩阵、矩阵运算、概率分布、条件概率以及最小二乘法等内容的解释和示例。 这份PDF的目的是帮助读者建立对机器学习数学理论的基本认识,使其能够更好地应用这些知识于实际问题中。通过简单易懂的解释和示例,读者可以更好地理解和运用机器学习中的数学原理。 总而言之,白话机器学习的数学PDF是一份让读者更轻松地理解和学习机器学习中所涉及的数学概念和方法的文档。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值