Machine Learning
君只见独不见
这个作者很懒,什么都没留下…
展开
-
《机器学习实战》chapter02 K-近邻算法(KNN)
2.2 示例:使用K-近邻算法改进约会网站的配结果收集数据:提供文本文件准备数据:使用Python解析文本文件(文本转numpy矩阵、归一化数据等)分析数据:使用Matplotlib画二维扩散图训练算法:此步骤不适用于k-紧邻算法测试算法:使用海伦提供的部分数据作为测试样本。测试样本和非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误使用算法:产生简单...原创 2018-04-03 22:29:06 · 319 阅读 · 1 评论 -
小试牛刀Matplotlib
1、plt.subplot()import matplotlib.pyplot as plt# Integer subplot specification must be a three digit number# 前两位代表横竖长度比# 左边的代表横,中间的代标纵坐标,右边的则表示绘图位置(当横纵比不是1:1时)ax1, ax2, ax3 = plt.subplot(231), plt...原创 2018-04-05 12:46:16 · 1692 阅读 · 0 评论 -
《机器学习实战》chapter05 Logistic回归
(1)收集数据:任意方法(2)准备数据:由于需要计算距离,因此要求数据类型为数值型,结构化数据格式则最佳(3)分析数据:任意方法(4)训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数(5)测试算法:一旦训练完成,分类将会很快Logistic回归优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高适用数据类型:数值型和标称型对于回归函数的选择,我们想要的是能接受...原创 2018-04-17 22:50:50 · 288 阅读 · 0 评论 -
《机器学习实战》chapter03 决策树
分类生成决策树import operatorfrom math import logimport pickle# 计算香农熵def calcShannonEnt(dataSet): """1、计算每个类别的频数""" numEntries = len(dataSet) # 类别字典,保存不同类别的频数 labelCounts = {} for f...原创 2018-04-05 22:20:34 · 237 阅读 · 0 评论 -
《机器学习实战》chapter04 使用Python进行文本分类
一、使用朴素贝叶斯过滤垃圾邮件使用朴素贝叶斯计算每一封邮件是垃圾邮件的概率p1和非垃圾邮件的概率p0,如果p1 > p0,则是垃圾邮件,否则不是。首先,我们先介绍一个例子:对于任意一条评论是否带有侮辱性质?我们通常看这个评论中是否包含侮辱性词汇,对于人来说,侮辱性词汇我们一眼就能够看出来,可是计算机并不理解什么是侮辱性,而我们又不能直接告诉计算机哪些词是侮辱性的,因为我们也列举不全,我们应该...原创 2018-04-12 22:56:08 · 1291 阅读 · 0 评论 -
《机器学习实战》chapter06 支持向量机
转载请注明作者和出处:http://blog.csdn.net/c406495762机器学习知乎专栏: https://zhuanlan.zhihu.com/ml-jackCSDN博客专栏: http://blog.csdn.net/column/details/16415.htmlGithub代码获取: https://github.com/Jack-Cherish/Machine-Learni...转载 2018-04-25 16:07:12 · 329 阅读 · 0 评论 -
《机器学习实战》chapter 11 使用apriori算法进行关联分析
使用apriori算法进行关联分析apriori原理:1、一个项集是非频繁的,那么它的所有超集也是非频繁的2、一个项集是频繁的,那么它的所有子集也是频繁的一、支持度(support)-使用apriori发现频繁项集对于数据集(包含M个项集)1、求单个元素组成项集的集合C1(无重复)2、利用minsupport(最小支持度或非频繁)过滤掉非频繁的单元素项集,得L13、单个元素两两组合成2元素的项集的...原创 2018-05-12 11:22:08 · 609 阅读 · 1 评论 -
《机器学习实战》chapter 07利用AdaBoosting元算法提高分类性能
第一部分:集成方法介绍集成方法通过组合多个分类器的分类结果,获得了比简单分类器更好的分类结果1、bagging,通过随机抽样的替换方式,得到了与原始数据集规模一样的数据集。 在S个数据集建好以后,将某个学习算法分别作用于每个数据集就得到了S个分类器。当我们对新数据进行分类时,就可以应用这S个分类器进行分类。与此同时,选择分类投票结果中最多的类别作为最后的分类结果。2、boosting,在ba...原创 2018-04-28 22:32:21 · 402 阅读 · 1 评论 -
在服务器搭建深度学习环境随笔
1、查看CUDA版本nvcc -V2、conda的使用创建envs#空环境conda create --name myenv#设置python版本conda create -n myenv python=3.6进入envssource activate myenv退出envssource deactivate安装packagespip in...原创 2018-10-11 14:33:41 · 753 阅读 · 0 评论