2018年04月_君只见独不见

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创《机器学习实战》chapter 07利用AdaBoosting元算法提高分类性能

第一部分：集成方法介绍集成方法通过组合多个分类器的分类结果，获得了比简单分类器更好的分类结果1、bagging，通过随机抽样的替换方式，得到了与原始数据集规模一样的数据集。在S个数据集建好以后，将某个学习算法分别作用于每个数据集就得到了S个分类器。当我们对新数据进行分类时，就可以应用这S个分类器进行分类。与此同时，选择分类投票结果中最多的类别作为最后的分类结果。2、boosting，在ba...

2018-04-28 22:32:21 421 1

转载《机器学习实战》chapter06 支持向量机

转载请注明作者和出处：http://blog.csdn.net/c406495762机器学习知乎专栏： https://zhuanlan.zhihu.com/ml-jackCSDN博客专栏： http://blog.csdn.net/column/details/16415.htmlGithub代码获取： https://github.com/Jack-Cherish/Machine-Learni...

2018-04-25 16:07:12 339

原创《机器学习实战》chapter05 Logistic回归

（1）收集数据：任意方法（2）准备数据：由于需要计算距离，因此要求数据类型为数值型，结构化数据格式则最佳（3）分析数据：任意方法（4）训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数（5）测试算法：一旦训练完成，分类将会很快Logistic回归优点：计算代价不高，易于理解和实现缺点：容易欠拟合，分类精度可能不高适用数据类型：数值型和标称型对于回归函数的选择，我们想要的是能接受...

2018-04-17 22:50:50 298

原创《机器学习实战》chapter04 使用Python进行文本分类

一、使用朴素贝叶斯过滤垃圾邮件使用朴素贝叶斯计算每一封邮件是垃圾邮件的概率p1和非垃圾邮件的概率p0，如果p1 > p0，则是垃圾邮件，否则不是。首先，我们先介绍一个例子：对于任意一条评论是否带有侮辱性质？我们通常看这个评论中是否包含侮辱性词汇，对于人来说，侮辱性词汇我们一眼就能够看出来，可是计算机并不理解什么是侮辱性，而我们又不能直接告诉计算机哪些词是侮辱性的，因为我们也列举不全，我们应该...

2018-04-12 22:56:08 1310

原创《机器学习实战》chapter03 决策树

分类生成决策树import operatorfrom math import logimport pickle# 计算香农熵def calcShannonEnt(dataSet): """1、计算每个类别的频数""" numEntries = len(dataSet) # 类别字典，保存不同类别的频数 labelCounts = {} for f...

2018-04-05 22:20:34 250

原创小试牛刀Matplotlib

1、plt.subplot()import matplotlib.pyplot as plt# Integer subplot specification must be a three digit number# 前两位代表横竖长度比# 左边的代表横，中间的代标纵坐标，右边的则表示绘图位置（当横纵比不是1：1时）ax1, ax2, ax3 = plt.subplot(231), plt...

2018-04-05 12:46:16 1711

原创 Python中的遇到的错误（持续更新）

1、TypeError: 'dict_keys' object does not support indexing机器学习实战第三章决策树中遇到的，主要是Python的版本问题，下面这段是Python2的写法：firstStr = myTree.keys()[0] Python3：先转换成listfirstStr = list(myTree.keys(...

2018-04-04 15:54:58 2788

原创 Matplotlib图例中文乱码

环境：win10 + Python3.6(anaconda) + IDE(Pycharm)问题：在使用matplotlib绘制图表时中文字符出现乱码（已作配置，出错截图就不展示了）解决办法：一、在Python文件中使用matplotlib绘图时加入以下两行（import matplotlib.pyplot as plt）plt.rcParams['font.sans-serif'...

2018-04-04 11:30:41 6537 1

原创《机器学习实战》chapter02 K-近邻算法（KNN）

2.2 示例：使用K-近邻算法改进约会网站的配结果收集数据：提供文本文件准备数据：使用Python解析文本文件（文本转numpy矩阵、归一化数据等）分析数据：使用Matplotlib画二维扩散图训练算法：此步骤不适用于k-紧邻算法测试算法：使用海伦提供的部分数据作为测试样本。测试样本和非测试样本的区别在于：测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误使用算法：产生简单...

2018-04-03 22:29:06 330 1