机器学习相关理论知识

机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定的场景的决策。


机器学习的典型应用

1、关联规则:购物篮分析—>在订单中查看哪些商品是同时被购买的,啤酒+尿片。

2、聚类:用户细分精准营销—>移动:神州大众卡、全球通、动感地带、神州行

3、朴素贝叶斯:垃圾邮件识别

4、决策树:信用卡欺诈

5、crt预估:互联网广告

      协同过滤,推荐系统

6、自然语言处理:情感分析—>一段文本积极or消极;实体识别—>一段文本中把人名找出来

更多应用:语音识别、智慧机器人、个性化医疗、私人虚拟助理、情感分析、手势控制、人脸识别、视频内容自动识别、自动驾驶、机器实时翻译。


机器学习算法分类

一、有监督学习:分类算法、回归算法

        无监督学习:聚类

        半监督学习:有一部分y值,一开始训练的效果不好,但随着样本增多,效果越来越好

二、分类与回归

        聚类

        标注:一句话中哪些是形容词、动词、名词(给袁术做一个标签)

三、生成模型:属于某个类别的概率

        判别模型:给一个函数,把数据丢给函数,给出一个判别

        它们都属于分类问题。


机器学习常见算法

1、分类:C4.5、knn、Naive Bayes、cart

2、聚类:k-means

3、统计学习:SVM、EM

4、关联分析:Apriori

5、链接挖掘:PageRank

6、集装与改进:AdaBoost


C4.5和cart都属于决策树算法,该算法既可以解决分类问题,也可以解决回归问题。

SVM可解决分类与回归问题,主要解决分类问题。

Apriori:多次访问数据库,代价高;FP-growth:美籍华人发明的,只需两次访问数据库进行频繁项集挖掘。

AdaBoost:人脸识别,本质上决策树的改进版,有监督。

knn:有监督。


机器学习解决问题的框架

一、确定目标:业务需求、数据、特征工程

二、训练模型:定义模型、定义损失函数、优化算法

三、模型评估:交叉验证、效果评估



一、决策树

        决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,它属于有监督学习。

        机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。

        随机森林分类器将许多决策树结合起来以提升分类的正确率。


决策树的剪枝

        剪枝是决策树停止分支的方法之一,剪枝有预先剪枝和后剪枝两种。

        预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视野局限”,一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。

        后剪枝中树要充分生长,直到叶节点中都有最小的不纯度值为止,因而克服“视野局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。

        优点:克服了“视野局限”效应,而且无需保留部分样本用于交叉验证,可以充分利用全部训练集信息。但是计算量代价大,对于小样本的情况,后剪枝方法优于预先剪枝方法。

        不纯度:分类不正确的概率。

        决策树算法的缺点:

        1)对连续性的字段比较难预测

        2)对有时间顺序的数据,需要很多预处理的工作

        3)当类别太多时,错误可能就会增加的比较快

        4)一般的算法分类的时候,知识根据一个字段来分类


二、聚类

        将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

        聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。


三、逻辑回归(有监督)

        用于估计某种事物的可能性,它是一个非线性模型,sigmoid函数又称逻辑回归函数。

        Logistic回归的因变量可以是二分类的,也可以是多分类的,但二分类更为常用。主要用途:

        1)寻找危险因素:寻找某一疾病的危险因素

        2)预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。

        3)判别:跟预测有些类似,也是根据模型判断某人属于某病或属于某种情况的概率有多大。

        Logistic回归主要在流行病中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病的发生概率。

逻辑回归和线性回归的区别:

        逻辑回归:y=sigmoid(w'*x)

        线性回归:y=w'*x

        也就是逻辑回归比线性回归多了一个sigmoid函数,sigmoid(x)=1/(1+exp(-x)),其实就是对x进行归一化操作,使得sigmoid(x)位于0~1。

        逻辑回归通常用于二分类模型,目标函数是二类交叉熵,y的值表示属于第一类的概率,用户可以自己设置一个分类阈值,线性回归用来拟合数据,目标函数是平方和误差。


四、关联分析

        关联分析又成为关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析时发现交易数据库中不同商品(项)之间的联系,典型例子就是购物篮分析,分析顾客购买习惯。

        Apriori、FP-Growth算法:频繁项集,在频繁项集里面挖掘出大于最小置信度阈值的关联规则。


五、卷积神经网络(CNN)

        CNN是一种典型的多层监督学习神经网络,主要包括卷积层、池化层、全链接层。

        CNN能在各种实验中获得较好的结果:它采用局部连接和权值共享两种连接方式。局部连接是指每一层网络的神经元只与其上一层的一个方形邻域内的神经单元连接,通过卷积块赋予每个神经元权重,从而提取出特征。共享权值表示同一个特征图所对应的神经元公用相同的权值,可减少所需要训练参数的数量。


1、如何减少参数:权值共享

如何防治过拟合:增加数据,减少模型复杂度—>正则化

2、大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。5V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

3、Hadoop是一个由Apache基金会所开发的分布式基础架构。Hadoop实现了一个分布式文件系统,简称HDFS,为海量数据提供存储,HDFS具有高容错的特点;MapReduce为海量数据提供计算。

4、过拟合分类器能够百分之百正确分类样本数据,使它的构造精细复杂,规则严格,以至于任何与样本数据稍微不同的数据都认为不属于这个类别。

5、VC维反映了函数集的学习能力,VC维越大,则学习机器越复杂(容量越大),函数集的VC维就是它能打散的最大样本数目H。

6、为什么之前没有深度网络的出现?数据量不够、机器性能低

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 机器学习数学理论在机器学习领域中具有重要的地位。它是机器学习算法的理论基础,通过数学模型来描述和解释机器学习算法的原理和性能。 机器学习数学理论主要涉及统计学、优化方法、线性代数和概率论等数学知识。统计学提供了对数据的分析和建模方法,通过样本数据的统计特征来推导出模型的参数估计和预测能力。优化方法用于求解机器学习问题中的最优解,如最小化损失函数或最大化收益函数。线性代数则用于描述和处理数据的向量和矩阵,如特征向量和特征值分解等。概率论则是用于描述随机事件和不确定性,如概率分布和条件概率等。 机器学习数学理论的学习对于掌握机器学习算法至关重要。通过理解数学理论,可以更深入地理解机器学习算法的原理和假设,分析算法在不同数据集上的性能,并对算法进行优化和改进。同时,掌握数学理论也有助于更好地应用机器学习算法解决实际问题,选择合适的模型和参数以及评估模型的性能。 对于学习机器学习数学理论的人来说,可以通过学习相关的数学教材和课程来建立起扎实的数学基础。此外,还可以通过实践和实际应用来加深对数学理论的理解和应用能力。总之,机器学习数学理论是机器学习领域不可或缺的一部分,对于从事机器学习研究和应用的人员来说,了解和掌握这些数学知识是非常重要的。 ### 回答2: 机器学习数学理论是一门研究机器学习算法和模型背后的数学原理的学科。在机器学习中,数学理论起到了至关重要的作用,它为机器学习提供了坚实的基础,并帮助我们理解算法的内在机制。 首先,机器学习数学理论涉及到概率论和统计学的知识。概率论是用来对不确定性进行建模的数学工具,而机器学习中的许多问题都有一定程度的不确定性,如分类、聚类和回归等任务。统计学则提供了分析和解释数据集的方法,帮助我们了解数据背后的规律和趋势。 其次,线性代数也是机器学习数学理论的重要组成部分。线性代数涉及到矩阵和向量的运算,这些运算在机器学习中广泛应用于特征表示、参数优化和模型预测等方面。通过线性代数的工具,我们可以对数据进行高效处理,并进行复杂模型的计算。 此外,凸优化是机器学习数学理论中的一个重要分支。优化理论用于解决如何找到使目标函数最小或最大化的变量值的问题,在机器学习中,我们经常需要通过优化算法来求解模型参数,以最大程度地拟合训练数据集,并在未见过的数据上表现良好。 最后,信息论也是机器学习数学理论的重要组成部分。信息论研究信息的量和信息的传输方式,而在机器学习中,我们需要通过信息论来评估特征的重要性、确定模型的复杂度以及度量模型预测的准确性等。 总而言之,机器学习数学理论是机器学习领域不可或缺的一部分,它提供了数学和统计工具,帮助我们理解机器学习算法的原理,并为我们设计和调优模型提供了指导。通过学习机器学习数学理论,我们能够更好地应用和创新机器学习算法,解决现实世界中的问题。 ### 回答3: 机器学习数学理论 PDF 是一本关于机器学习中涉及的数学理论的电子书。这本书提供了机器学习背后的数学基础与原理,旨在帮助人们理解和应用机器学习算法。 机器学习是一门利用算法让计算机从数据中学习的科学和艺术。而数学在机器学习中起着重要的角色,通过数学理论的支持,我们能够深入理解机器学习方法的原理和局限性。 这本 PDF 从基础数学理论出发,介绍了概率论、统计学和线性代数等数学领域的相关知识。它解释了在机器学习中常用的概念和技术,如回归分析、分类器、聚类和降维等。此外,它还介绍了几种常用的机器学习算法,例如决策树、支持向量机和神经网络,并通过数学推导和示例演示了算法的运作过程。 通过学习这本 PDF,读者可以系统地学习和掌握机器学习数学理论的基础知识。它不仅可以帮助读者理解机器学习算法的原理,还可以帮助读者解读和分析其背后的数学模型、评估算法性能和调优模型参数。 总之,机器学习数学理论 PDF 是一本理论与实践相结合的指南,旨在帮助读者深入了解机器学习的数学基础,并将其应用于实际问题中。通过学习这本书,读者可以更好地理解和应用机器学习算法,为解决现实世界中的各种问题提供有力的工具和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值