机器学习实战
文章平均质量分 71
菜地里翻滚的猪
It界的小鲁班
展开
-
机器学习实战--K近邻算法的实现(三)
使用K近邻算法识别手写数字这里构造的系统只能识别数字0-9,需要识别的数字已经使用图形处理软件处理成32*32大小的黑白图像,并将其转换为图像格式。实际图像存储在两个子目录中:目录trainingDigits中,大约包含2000个例子,每个数字大约有200个样本,同一个数字有多种书写形态,数字样本被命名为:数字...原创 2018-10-14 22:17:00 · 309 阅读 · 0 评论 -
机器学习实战--K近邻算法实现(一)
KNN算法的工作原理为:存在一个样本数据的集合,也称作训练样本集合,并且样本集的每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的分类标签,一般只选择样本集中前K个最相似的数据,前K个相似数据中出现次数最多的分类作为新数据的分类。创建knn.py的文件,在pycharm的命令行窗口切换到该文件所在的目录,输入Py...原创 2018-10-10 14:31:02 · 170 阅读 · 0 评论 -
机器学习实战--决策树(一)
决策树是一种通过推断分解,逐步缩小待推测事物范围的算法结构,重要任务就是理解数据中所蕴含的知识信息,可以使用不熟悉的数据集合,并从中提取出一系列规则,根据数据集创建规则的过程就是机器学习的过程。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征的数据。缺点:可能产生过度匹配的问题。### 决策树的构造使用信息论划分数据集,要知道当前数据集的哪个特征起决定性作...原创 2018-10-16 21:30:53 · 1288 阅读 · 0 评论 -
机器学习实战--决策树(二)
使用Matplotlib注解绘制树形图annotation是注解工具,注解功能可以对文字着色,并提供多种形状以供选择,还可以反转箭头。创建名为treePlotter.py的新文件。使用文本注解绘制树节点: #定义文本框和箭头格式decisionNode = dict(boxstyle="sawtooth",fc="0....原创 2018-10-16 22:47:04 · 258 阅读 · 0 评论 -
机器学习实战--决策树(三)
测试:使用已有决策树执行分类构造决策树之后,将用于实际数据的分类。执行数据分类时需要使用决策树以及用于构造决策树的标签向量。代码如下:'''该函数的inputTree是已经生成的决策树,是字典集,featLabels是要测试的数据特征的列表,testVec是与featLabels的特征列表中对应的特征值,注意位置需要对应。输入形式如:classify(myTree,['no sur...原创 2018-10-16 23:16:57 · 342 阅读 · 0 评论 -
机器学习实战--K近邻算法实现(二)
实例:使用K近邻算法改进约会网站从文本文件中解析数据数据样本存放在txt类型文件中,每个样本占一行,总共有1000行,每行样本都包含的特征为:每年获得的飞行常客里程数 玩视频游戏所耗时间百分比 每周消耗的冰淇淋公升数将上述特征输入到分类器之前,需要将待处理的数据格式设置为分类器可以接收的数据,为此创建file2matrx的函数,...原创 2018-10-10 15:33:51 · 160 阅读 · 0 评论 -
机器学习实战--基于概率论的分类方法:朴素贝叶斯(一)
优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。1.使用条件概率来分类:两个概率p1(x,y)和p2(x,y):如果 p1(x,y)>p2(x,y),则属于类别1,反之属于类别2.上述只是尽可能简化的描述,真正需要比较和计算的是p(c1|x,y)和p(c2|x,y),意义是对于给定的数据点x,y,该数据点来自类别c1和c2的概率,可...原创 2018-11-04 23:14:33 · 242 阅读 · 0 评论 -
机器学习实战——基于概率论的分类方法:朴素贝叶斯(二)
使用贝叶斯过滤垃圾邮件1.准备数据:切分文本将字符串切分为词列表时,倘若没有split参数,则标点符号也会被当成词的一部分,可以使用正则表达式来切分句子,其中分隔符是除了单词,数字之外的任意字符串。>>>import re>>> regEx = re.compile('\...原创 2018-11-05 18:25:11 · 204 阅读 · 0 评论 -
机器学习实战--基于概率论的分类方法:朴素贝叶斯(三)
使用朴素贝叶斯分类器从个人广告获取区域倾向使用不同城市的广告训练一个分类器,目的就是使用该分类器进行分类,通过观察单词的条件概率值,来发现特定城市的相关内容。1.收集数据接下来需要使用python下载文件,Universal Feed Parser是python中最常用的RSS库。在python提示符下敲入>>>pip ins...原创 2018-11-08 20:52:48 · 241 阅读 · 0 评论