【数据分析day07】机器学习入门 & KNN（分类，回归）

最新推荐文章于 2024-04-02 19:08:20 发布

曾青铜

最新推荐文章于 2024-04-02 19:08:20 发布

阅读量461

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/HFZeng/article/details/103259992

版权

本文介绍了机器学习的基本概念，包括有监督学习的分类与回归，无监督学习的聚类，以及KNN（K-最近邻）算法的基础知识。详细讲解了KNN的原理、适用数据范围、优缺点及改进方法。通过电影分类、性别判断和鸢尾花分类三个例子展示了KNN在分类问题中的应用，并探讨了KNN在回归问题中的使用。

摘要由CSDN通过智能技术生成

机器学习入门

在这里插入图片描述

- 分类计数预测的数据对象是**离散的**。（预测分类）如短信是否为垃圾短信，用户是否喜欢电子产品
- K近邻、朴素贝叶斯、决策树、SVM

- 回归技术预测的数据对象是**连续值**。（预测趋势）例如温度变化或时间变化。包括一元回归和多元回归，线性回归和非线性回归
- 线性回归、逻辑回归、岭回归

- 聚类算法用于在数据中寻找隐藏的模式或分组。
- K-means

深度学习有3个方向：“语音识别”，“图像识别”，“自然语义识别”

优点：精度高、对异常值不敏感、无数据输入假定。
缺点：时间复杂度高、空间复杂度高。
改进：因为很消耗支援，一般不做商用，但可进行优化：
1. 解决计算量大的问题：限定范围半径进行剪辑（即取周围有效半径的点算距离）
2. 解决样本不平衡问题：加权重

导包：KNeighborsClassifier

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.neighbors import KNeighborsClassifier

数据

movie = pd.read_excel('../tests.xlsx', sheet_name=1)
movie

在这里插入图片描述
解决中文问题

plt.rcParams['font.sans-serif'] = ['SimHei']

以接吻镜头作为y轴, 武打镜头作为x轴画散点图, 0表示动作片, 1表示爱情片

plt.scatter(x=movie.武打镜头.values, y=movie.接吻镜头.values, c=[0,0,1,0,1,1,])
plt.ylabel('接吻镜头')
plt.xlabel('武打镜头')

关注