转换器与预估器,KNN算法,朴素贝叶斯算法,决策树,随机森林的特点,优缺点
1转换器与预估器
实例化转换器
fit_transform 转换
实例化预估器
fit将训练集的特征值和目标值传进来
fit运行完后,已经把这个模型训练出来了
2KNN算法
根据你的邻居来推测你的类别,如何确定谁是你的邻居(用距离公式,最常用的是欧式距离)还有曼哈顿距离–求绝对值,明可夫斯基距离(欧式距离和曼哈顿距离的一个退p=1曼哈顿距离,p=2欧式距离)
k的取值对最终的结果有影响,k指的是有几个邻居,这些邻居中的大多数就是我们所属的类别(k值太小会受到异常值的影响,k值取得过大会受样本不均衡的影响)
要进行大量的距离计算,时间复杂度很高,内存开销比较大
应用场景,少量数据
3朴素贝叶斯算法
朴素–假定特征和特征之间是相互独立的
贝叶斯指的就是贝叶斯公式
求各项概率时,遇到概率值为0时,原因在于训练集样本量太少了
引入拉普拉斯平滑系数,可以求出来
优点,因为假定了特征值与特征值之间相互独立,所以运算起来特别块
缺点:就是因为假定了特征值与特征值之间相互独立,而在实际情况下,特征值与特征值之间存在关联,这样以来就会使得结果不准确
4决策树
决策树的关键点就是如何高效的决策
先看那个条件可以高效的决策(如何确定顺序—计算—知道某个条件之后—不确定性程度减小的程度越多就看哪个)使用信息增益,信息增益比,经济系数
衡量我们知道某个条件系数,不确定性的减少程度
信息增益=信息熵-条件熵
优点:可视化,可解释能力强
缺点:容易过拟合(解决方案:随机森林)
5随机森林
森林:多个决策树,三个臭皮匠顶个诸葛亮
随机:对每课树产生是随机的(随机在:每一棵树的测试集和训练集的特征都是随机的)
训练集是如何产生的(随机有放回的抽样,从N个训练集样本中随机有放回的抽样,抽取N个–单颗树的训练集)
特征如何产生的(从大M中随机抽取小m个特征,m可以是M的平方根,也可以是log2(M),也可以取M会耗时很大)