关闭

朴素贝叶斯

这篇文章将利用朴素贝叶斯分类对文档进行分类。从文本中获取特征,需要先拆分文本,下面的代码直接创建词条向量形式的文本作为训练数据,函数有两个返回值,分别是训练数据和每条数据对应的类别组成的列表:def loadDataSet(): # postingList 为进行词条切分后的文档集合 postingList = [ ['my','dog','has','flea','...
阅读(8) 评论(0)

决策树

构建决策树需要解决的第一个问题就是:当前数据集上哪个特征在划分数据分类时起决定性作用。 下面的例子使用的是ID3算法解决上面的问题,对数据进行分类。计算给定数据集的香农熵def calculateEntropy(dataSet): numberEntries = len(dataSet) labelCounts = {} for featVector in dataSet:...
阅读(14) 评论(0)

k近邻算法--手写识别系统

下面的例子来源为《机器学习实战》,例子只能识别0-9 首先需要将图像二进制数据转化为测试向量:def imgTransformVector(filename): # 将 32x32 二进制图像矩阵转化为 1x1024 向量 returnVector = np.zeros((1,1024)) fr = open(filename) for i in range(32):...
阅读(10) 评论(0)

k近邻算法--改进约会网站配对效果

k近邻算法采用测量数据点之间的距离的方法进行分类。 样本数据集(训练样本集): 样本集中每一数据与所属分类存在对应关系。 新数据分类: 将新数据与训练样本集中数据进行比较,提取样本集中特征与新数据最相似(数据点之间的距离最小)的k个点,将这k个点的分类标签作为新数据的分类。下面用该算法来改进约会网站配对效果,代码来源为《机器学习实战》 训练样本集特征 每年飞行里程 玩游戏所耗时间百分比...
阅读(20) 评论(0)
    个人资料
    • 访问:47次
    • 积分:40
    • 等级:
    • 排名:千里之外
    • 原创:4篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档