机器学习
会飞的哼哧
完全属于个人日记,若资源来源标注不明确,敬请谅解!
展开
-
k-近邻算法实战
k-近邻 算法实战原创 2019-09-11 19:58:01 · 216 阅读 · 0 评论 -
使用k-近邻算法识别手写数字
本文摘自《机器学习实战》案例,对其进行了代码更新与注释。实战介绍使用k-近邻分类器构造手写识别系统,为了简单起见,系统只识别0-9,需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:宽高是32像素*32像素的黑白图像。每个图像存于相应的txt文档中,如数字0的图像,存于‘0_x.txt’;数字1的图像,存于‘1_x.txt’中,其中x代表文档在文件夹的位次。需要资源者请回复!!...原创 2019-09-12 10:58:42 · 833 阅读 · 0 评论 -
决策树实战
本文摘自“机器学习实战”中案例,在此对其进行了代码更新与简单注释。感兴趣者可回复资源需求!问题描述现有一份海洋生物数据表,如下图所示:不浮出水面是否可以生存是否有脚蹼是否鱼类1是是是2是是是3是否否4否是否5否是否要求:根据表中两个特征“不浮出水面是否可以生存”、“是否有脚蹼”以及标签“是否鱼类”,构造决策树,并预测不浮出水面不可以生存、没有脚蹼的海洋生物是否为鱼类。一般流...原创 2019-09-14 18:03:35 · 383 阅读 · 0 评论 -
python获取决策树的叶节点与深度
本文摘自“机器学习实战”,感兴趣者可自行查看!获取决策树的叶节点现有决策树如下:mytree={'no surfing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}#获取决策树的叶节点数目def getNumLeaf(myTree): numLeaf=0 firstStr=list(myTree.keys())[0...原创 2019-09-15 10:42:57 · 3567 阅读 · 0 评论 -
使用朴素贝叶斯进行文档分类
本文摘自《机器学习实战》,感兴趣者可回复获得资源!问题描述以在线社区留言板为例,为了不影响社区的发展,现构造一个快速过滤器,用以屏蔽侮辱性言论。准备数据:从文本中构建词向量(1)首先将所有文档中的单词组成词汇表def loadDataSet(): postingList=[['my','dog','has','flea','problems','help','pleas'], ...原创 2019-09-18 09:36:10 · 1024 阅读 · 0 评论 -
使用朴素贝叶斯过滤垃圾邮件
本文摘自《机器学习实战》,并对其进行了代码更新与完善。感兴趣者可回复获得资源!准备数据:切分文本现提供邮件文件夹:spam;非垃圾邮件文件夹:ham,各有25封邮件。将邮件中的内容文本,进行分割,转换成一系列词语组成的列表def textParse(bigString): import re listOfTokens=re.split('\W',bigString) #匹配...原创 2019-09-18 19:24:52 · 1872 阅读 · 4 评论 -
Logistic回归实战
基于Logistic回归和Sigmoid函数的分类1、函数公式原创 2019-09-24 21:17:58 · 880 阅读 · 0 评论 -
sklearn数据集分割方法汇总
一、简介 在现实的机器学习任务中,我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练,以尽可能高的精度为目标,但这里便出现一个问题,一是很多情况下我们不能说搜集到的样本集就能代表真实的全体,其分布也不一定就与真实的全体相同,但是有一点很明确,样本集数量越大则其接近真实全体的可能性也就越大;二是很多算法容易发生过拟合(overfitting),即其过度学习到训练集中一些比较特别的...转载 2019-09-27 18:59:12 · 12406 阅读 · 1 评论