机器学习算法基础day3

prettygirlman

于 2020-07-12 21:03:00 发布

阅读量134

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/prettygirlman/article/details/107298166

版权

机器学习专栏收录该内容

38 篇文章 0 订阅

订阅专栏

分类算法-k近邻算法

定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
来源：KNN算法最早是由Cover和Hart提出的一种分类算法

计算距离公式

两个样本的距离可以通过如下公式计算，又叫欧式距离
比如说，a(a1,a2,a3),b(b1,b2,b3)
在这里插入图片描述

sklearn k-近邻算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

k近邻算法实例-预测入住位置

在这里插入图片描述

数据的处理

1、缩小数据集范围
DataFrame.query()
2、处理日期数据
pd.to_datetime
pd.DatetimeIndex
3、增加分割的日期数据
4、删除没用的日期数据
pd.drop
5、将签到位置少于n个用户的删除
place_count =data.groupby(‘place_id’).aggregate(np.count_nonzero)tf = place_count[place_count.row_id > 3].reset_index()
data = data[data[‘place_id’].isin(tf.place_id)]

实例流程

1、数据集的处理

2、分割数据集

3、对数据集进行标准化

4、estimator流程进行分类预测

k-近邻算法优缺点

优点：
简单，易于理解，易于实现，无需估计参数，无需训练

缺点：
懒惰算法，对测试样本分类时的计算量大，内存开销大
必须指定K值，K值选择不当则分类精度不能保证

使用场景：小数据场景，几千～几万样本，具体场景具体业务
去测试

分类算法-朴素贝叶斯算法

联合概率和条件概率

在这里插入图片描述

朴素贝叶斯-贝叶斯公式

在这里插入图片描述

拉普拉斯平滑

在这里插入图片描述

sklearn朴素贝叶斯实现API

sklearn.naive_bayes.MultinomialNB
sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
朴素贝叶斯分类

alpha：拉普拉斯平滑系数

朴素贝叶斯分类优缺点

优点：
朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。
分类准确度高，速度快

缺点：
需要知道先验概率P(F1,F2,…|C)，因此在某些时候会由于假设的先验
模型的原因导致预测效果不佳。

分类模型的评估

estimator.score()
一般最常见使用的是准确率，即预测结果正确的百分比

混淆矩阵

在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)
在这里插入图片描述

精确率(Precision)与召回率(Recall)

精确率：预测结果为正例样本中真实为正例的比例（查得准）
在这里插入图片描述
召回率：真实为正例的样本中预测结果为正例的比例（查的全，对正样本的区分能力）

F1-score

在这里插入图片描述

分类模型评估API

sklearn.metrics.classification_report
sklearn.metrics.classification_report(y_true, y_pred, target_names=None)
y_true：真实目标值
y_pred：估计器预测目标值
target_names：目标类别名称
return：每个类别精确率与召回率

模型的选择与调优

交叉验证过程

交叉验证：将拿到的数据，分为训练和验证集。以下图为例：将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。
在这里插入图片描述

超参数搜索-网格搜索API

sklearn.model_selection.GridSearchCV

GridSearchCV

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)
对估计器的指定参数值进行详尽搜索

estimator：估计器对象
param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}
cv：指定几折交叉验证
fit：输入训练数据
score：准确率
结果分析：
best_score_:在交叉验证中测试的最好结果
best_estimator_：最好的参数模型
cv_results_:每次交叉验证后的测试集准确率结果和训练集准确率结果

prettygirlman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法基础day3

文章目录分类算法-k近邻算法计算距离公式sklearn k-近邻算法APIk近邻算法实例-预测入住位置数据的处理实例流程k-近邻算法优缺点分类算法-朴素贝叶斯算法联合概率和条件概率朴素贝叶斯-贝叶斯公式拉普拉斯平滑sklearn朴素贝叶斯实现API朴素贝叶斯分类优缺点分类模型的评估混淆矩阵精确率(Precision)与召回率(Recall)F1-score分类模型评估API模型的选择与调优交叉验证过程超参数搜索-网格搜索APIGridSearchCV分类算法-k近邻算法定义：如果一个样本在特征空间中的k
复制链接

扫一扫