目录
朴素贝叶斯算法:GaussianNB()#构造朴素贝叶斯分类器
决策树DecisionTreeClassifier:
前剪枝(创建时便指定信息熵的临界值)和后剪枝
绘制决策树的图,如下
朴素贝叶斯算法:GaussianNB()#构造朴素贝叶斯分类器
score(传入测试使用的自变量和因变量,一般指定sample_weight=None)来计算准确率对模型进行打分
半朴素贝叶斯:为了解决朴素贝叶斯中属性独立性假设在实际中不适用的问题,建立一些属性间的联系,假定属性有一定的相关性,假设每个属性对多依赖一个其他的属性
AODE:在ode的基础上集成学习的思路,训练多个模型,七中每个模型都设置一个属性作为其他所有属性的关联属性,最后使用多个模型的结果的平均数值作为最终结果。
支持向量机SVM算法:在文本分类表现优异
处理非线性可分:把不快乐划分的样本映射到高维空间,借助和函数来实现映射到高维的操作。
和函数主要用线性核函数、多项式核函数、高斯核函数。
算法优点:有严格的数学理论支持,可解释性强;算法的鲁棒性好。
缺点:训练时所需要的资源开销很大;只能处理二分类问题;模型预测时,预测时间与支持向量的个数成正比。
线性核SVC时分类支持向量机,SVR时回归支持向量机
人工神经网络:当前最火热的深度学习基础
没有隐藏层的时候,加入非线性函数作为激活函数,这样深层次的网络就可以去你和任意类型的函数。常见的激活函数有ReLU、tanh、Sigmoid等。
优点:可以模拟任何算法
缺点:解释性复杂,神经网络非常消耗资源。
MLP又名多层感知机,也叫人工神经网络(ANN,Artificial Neural Network),MLPClassifier是一个监督学习算法
对隐藏层神经元的层数和个数进行更改可以提高准确率
k-means算法:聚类
如何确定k值?————手肘法:循环尝试k值,计算在不同的k值情况下,所有数据的损失,即用每一个数据点到中心点的距离之和计算平均距离。
收敛速度较快:简单明了
缺点:结果不稳定(初始值自行设定);无法解决样本不均衡的问题;容易收敛到局部最优解;受噪声影响比较大。
k-means++:主要在初始选取中心点的时候进行了哟话,从已有的数据中随机的进行多次选取k个中心点,每次都计算这一次选中的中心点的距离,然后选一组最大的作为初始化中心点。
mini batch k-means:基于在数据量和数据维度都特别大的情况下,运算就会变得异常缓慢的问题进行改进。在迭代时,每个集合中选区一部分点进行计算,从而降低计算的复杂度
输出结果为误差平方和,越接近0越好