Python 机器学习日记(一)

最新推荐文章于 2023-12-26 16:05:55 发布

原创

最新推荐文章于 2023-12-26 16:05:55 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #pycharm

纯0基础，只是想提升自己，啥也不会，只会抄。知识很浅薄，学到的一点一点往里添加，不懂就查，懂了自己写。看完了Python从入门到精通、流畅的Python，但是基本都是比着书敲代码，不会用。想换一种学习方式，现在用的书是舍友推荐的《深入浅出Pyrhon学习》，代码都是出自本书。不知道怎么学，刚考上研究生发现舍友什么都会，哥们儿只会做题，也没见到导师，社恐在线好吧。写这玩意儿也是看到舍友写了，不知道对我有没有用。

P.S.我不太懂这个原创转载啥的，我是通过在网上搜进行不懂的学习，有人看到的话要是我侵权啥的感谢告诉我我立马删了然后去跟原博主道歉（就是当自己的一个笔记..），学生一个真不懂。

2021.9.15

K最邻近算法

KNN分类器

KNN学习（K-Nearest Neighbor algorithm，K最邻近方法）是一种统计分类器，对数据的特征变量的筛选尤其有效。KNN的基本思想是：输入没有标签（标注数据的类别），即没有经过分类的新数据，首先提取新数据的特征并与測试集中的每一个数据特征进行比較；然后从測试集中提取K个最邻近（最类似）的数据特征标签，统计这K个最邻近数据中出现次数最多的分类，将其作为新的数据类别。

from sklearn.datasets import make_blobs
#导入KNN分类器
from sklearn.neighbors import KNeighborsClassifier
#导入画图工具
import matplotlib.pyplot as plt
#导入数据集拆分工具
from sklearn.model_selection import train_test_split
#生成样本为200，分类为2的数据集
data = make_blobs(n_samples=200,centers=2,random_state=8)
X,y = data
#将生成的数据集进行可视化
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.spring,edgecolors='k')

make_blobs函数

函数功能：在机器学习中自建模型

函数参数：data = make_blobs(n_samples=200,centers=2,random_state=8)

n_samples:int或数组

如果为int，则为在簇之间平均分配的点总数。如果是数组，则序列中的每个元素表示每个簇的样本数。

centers：int或形状数组[n_centers，n_features]

可选（默认= None）要生成的中心数或固定的中心位置。如果n_samples是一个int且center为None，则将生成3个中心。如果n_samples是数组类，则中心必须为None或长度等于n_samples长度的数组。

random_state：int，RandomState实例或无（默认）
确定用于创建数据集的随机数生成。为多个函数调用传递可重复输出的int值。

原文出处：