机器学习(二)

本文介绍了机器学习中的关键概念,包括朴素贝叶斯算法、信息熵、精确率和召回率的定义及其应用。讨论了线性回归的过拟合与欠拟合问题,以及解决策略。还涉及逻辑回归和非监督学习中的k-means聚类算法,阐述其工作原理和应用场景。
摘要由CSDN通过智能技术生成

朴素贝叶斯

朴素贝叶斯-预测建模算法(理想化)-条件概率
贝叶斯原理-数学基础
贝叶斯分类-模型 P(C|A1A2A3)=P(A1A2A3|C)·P©/P(A1A2A3)
朴素贝叶斯-具体方法<对缺失数据不敏感>
用途:主要用于文本分类、情感预测、推荐系统、垃圾文本过滤等。
对应到贝叶斯案例

信息熵

信息熵:通俗点来说,信息熵类似于一个人的所拥有的选择权力,当他有只有应该选择的时候的时候,他的信息熵就低,但是当他拥有更多的选择的时候他的信息熵就更加大
在这里插入图片描述

精确率和召回率

精确率:所有"正确被检索的item(TP)"占所有"实际被检索到的(TP+FP)"的比例.

召回率:"正确被检索的item(TP)"占所有"应该检索到的item(TP+FN)"的比例。

线性回归

线性回归:线性关系数据。
拟合:达到预期的效果
欠拟合(underfitting):无法达到预期的效果(模型过于简单)。
解决欠拟合的方法:优化模型,增加数据的特征数量。
过拟合(overfitthing):训练集的效果好,但测试集的效果不怎么好。
解决过拟合的方法:增大数据量,正则化(L1,L2),丢弃法Dropout。
在这里插入图片描述

根据现象判断过拟合,欠拟合

欠拟合:交叉验证:训练集结果:表现不行,测试集:表现不行。

过拟合:训练集99% 测试机89%。

正则化
L2正则化:减少权重:趋近于0.尽量减少高次项特征的影响。
线性回归:LinearRegression 容易出现过拟合
L2正则化:Ridge:岭回归 带有正则化的线性回归 解决过拟合。
sklearn.linear_model.Ridege(alpha=1.0):具有L2正则化的线性最小二乘法
alpha:正则化力度
力度大,权重小
alpha(01)(110)

岭回归得到的回归系数更符合实际,更可靠

模型的保存和下载(from sklearn.externals import joblib):
joblib.dump( ,"./当前目录/test.pkl")
estimator = joblib.load('test.pkl")

逻辑回归

分类-逻辑回归
逻辑回归:线性回归的式子做逻辑回归的输入
二分类

sigmoid 概率值 通过梯度下降

损失函数:1.均方误差(不存在多个局部最低点) 只有一个最小值
2.对似然数损失(多个局部最小值) 目前解决不了 1.多次随机初始化,多次比较最小值结果 2.调整学习率。
尽管没有全局最低点 但是效果都是不错的

logisticRegression回归预测

非监督学习

方法:k-means
原理:聚类
运用:1.随机在数据当中抽取三个样本,当作三个类别的中心点
2.计算其余的点到这三个中心点的距离,从中选距离最近的点作为自己的自己的标记,形成三个族群
3.分别计算这三个族群的平均值,把三个平均值与之前的三个旧中心点进行比较,相同:结束聚类。不同:把这三个平均值当作新的中心点,重复第二步
聚类在分类之前。
聚类评估标准:轮廓系数
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值