python 数据分类
上一篇: 文本相似性
1、Python数据建模概述
- 数据建模指的是对现实世界各类数据的抽象组织,建立一个适合的模型对数据进行处理。
- 在数据分析与挖掘中,我们通常需要根据一些数据建立起特定的模型,然后处理。
- 模型的建立需要依赖于算法,一般,常见的算法有分类、聚类、关联、回归等。
2、Python数据分类实现过程
数据分类主要处理现实生活中的分类问题,一般处理思路如下:
- 1、首先明确需求并对数据进行观察
- 2、其次,确定算法
- 3、确定步骤
- 4、编程实现
3、常见的分类算法
常见的分类算法主要有:
- 1、KNN算法
- 2、贝克斯方法
- 3、决策树
- 4、人工神经网络
- 5、支持向量机(SVM)
4、KNN算法与手写体数字识别
4.1 KNN算法的实现步骤
- 1、处理数据
- 2、数据向量化
- 3、计算欧几里得距离
- 4、根据距离进行分类
4.2 KNN算法的python实现
from numpy import *
import operator
def knn(k,testdata,traindata,labels):
traindatasize=traindata.shape[0] # 数据行数,即数据个数
# 从列方向扩展
# tile(a,(size,1))
dif=tile(testdata,(traindatasize,1))-traindata #扩展为相同维度后计算差值
sqdif=dif**2 # 平方
sumsqdif=sqdif.sum(axis=1) # 各列平方和
distance=sumsqdif**0.5 # 计算距离
sortdistance=distance.argsort() #距离排序,得到序号
count={
}
for i in range(0,k):
vote=labels[sortdistance[i]] # 投票结果,类别
count[vote]=count.get(vote,0)+1 # 统计类别出现次数
sortcount=sorted(count.items(),key=operator.itemgetter(1),reverse=True)
return sortcount[0][0]
将图片处理为文本