转换器与预估器,KNN算法,朴素贝叶斯算法,决策树,随机森林的特点,优缺点

转换器与预估器,KNN算法,朴素贝叶斯算法,决策树,随机森林的特点,优缺点

1转换器与预估器

实例化转换器

fit_transform 转换

实例化预估器

fit将训练集的特征值和目标值传进来

fit运行完后,已经把这个模型训练出来了

2KNN算法

根据你的邻居来推测你的类别,如何确定谁是你的邻居(用距离公式,最常用的是欧式距离)还有曼哈顿距离–求绝对值,明可夫斯基距离(欧式距离和曼哈顿距离的一个退p=1曼哈顿距离,p=2欧式距离)

k的取值对最终的结果有影响,k指的是有几个邻居,这些邻居中的大多数就是我们所属的类别(k值太小会受到异常值的影响,k值取得过大会受样本不均衡的影响)

要进行大量的距离计算,时间复杂度很高,内存开销比较大

应用场景,少量数据

3朴素贝叶斯算法

朴素–假定特征和特征之间是相互独立的

贝叶斯指的就是贝叶斯公式

求各项概率时,遇到概率值为0时,原因在于训练集样本量太少了

引入拉普拉斯平滑系数,可以求出来

优点,因为假定了特征值与特征值之间相互独立,所以运算起来特别块

缺点:就是因为假定了特征值与特征值之间相互独立,而在实际情况下,特征值与特征值之间存在关联,这样以来就会使得结果不准确

4决策树

决策树的关键点就是如何高效的决策

先看那个条件可以高效的决策(如何确定顺序—计算—知道某个条件之后—不确定性程度减小的程度越多就看哪个)使用信息增益,信息增益比,经济系数

衡量我们知道某个条件系数,不确定性的减少程度

信息增益=信息熵-条件熵

优点:可视化,可解释能力强

缺点:容易过拟合(解决方案:随机森林)

5随机森林

森林:多个决策树,三个臭皮匠顶个诸葛亮

随机:对每课树产生是随机的(随机在:每一棵树的测试集和训练集的特征都是随机的)

训练集是如何产生的(随机有放回的抽样,从N个训练集样本中随机有放回的抽样,抽取N个–单颗树的训练集)

特征如何产生的(从大M中随机抽取小m个特征,m可以是M的平方根,也可以是log2(M),也可以取M会耗时很大)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值