http://blog.csdn.net/shizhixin/article/details/50488520
分类算法
K最近邻算法(KNN)
原理:前提邻居都已分类,离自己最近的K个样本中占多数的类别就是最终的分类类别
邻居都已分类反应在代码上就是训练集是已分类的;
不足:
样本不均衡时,会导致结果不准
解决:增加权重值
计算量大,对每一个待分类的样本,都需算出自己和全体样本的距离,才能确定K个最近邻点
解决:对全体样本进行剪辑,减小数据量
KNN算法描述:
计算已知类别数据集中的点和待分类点的距离
对距离递增排序
取前K个点
计算这K个点中,各个类别的出现频率
出现频率最高的即为分类结果
pytyon安装模块或库的三种方法:
Anaconda
python的发行版,包含常用的python库,足矣
pip
pip install 库名
源码安装
将库的源码下载下来,解压,然后进入到解压目录,执行python setup.py install,就会把这个库安装到python的默认库目录中