2018年04月_z新一

原创《机器学习实战笔记--第一部分分类算法：决策树 4》

之前的决策树分类部分只完成了对离散值的分类，当遇到有某些属性值是连续的时候就需要一些其他的方法了。由于连续值的可取值数目不再有限，因此不能直接根据连续属性的可取值来对节点进行划分。此时就需要连续属性的离散化，最简单的策略是采用二分法对连续属性进行处理，这正是C4.5决策树算法中采用的机制。下面我们以周志华老师的西瓜书为例画一个带有连续值分类的决策树。给定样本...

2018-04-25 17:00:32 240

原创《python的json操作》

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数据类型对...

2018-04-24 23:36:09 140

原创《python 操作文件和目录，序列化》

Python内置的os模块可以直接调用操作系统提供的接口函数。环境变量：在操作系统中定义的环境变量都保存在os.environ这个变量中，可以直接查看。要获取某个环境变量的值，可以调用os.enviro.get('key') 操作文件和目录：操作文件和目录的函数一部分放在os模块中，一部分放在os.path模块中。查看，创建和删除目录可以这么调用： ...

2018-04-24 23:20:41 198

原创《机器学习实战笔记--第一部分分类算法：决策树 3》

构造分类器：我们在构造了决策树之后，可以用于实际的分类了。在执行分类的时候需要决策树以及用于构造树的标签向量。程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子节点；最后将测试数据定义为叶子节点所属的类型。def classify(inputTree, featLabels, testVec): #featLabels特征标签列表 firstStr = l...

2018-04-20 20:36:59 224

原创《机器学习实战笔记--第一部分分类算法：决策树 2》

之前我们已经了解了从数据集构造决策树的各种子功能模块，原理：从原始数据中基于最好的特征值进行划分数据集，由于特征值可能多余两个，所以可能存在大于两个分支的数据集划分。第一次划分之后数据将被传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据。因此我们可以用递归的原则处理数据。递归结束的条件是：程序遍历完所有划分数据集的属性，或则每个分支下的所有实例都具有相同的分类。如果所有...

2018-04-20 15:55:03 222

原创《机器学习实战笔记--第一部分分类算法：决策树 1》

决策树是最经常使用的数据挖掘算法，他之所以如此流行，一个很重要的原因是使用者基本不用了解机器学习算法，也不用深究他是如何工作的。3-1就是一个决策树，正方形表示判断模块，椭圆形表示终止模块，从模块引出的箭头称作分支，他可以到达另一个判断模块或则终止模块。我们之前介绍的KNN最大的缺点就是无法得出数据的内在意义，而决策树的主要优势就是在于数据形式非常容易理解。下面我们将构造决策树算法...

2018-04-19 14:29:50 165

原创《机器学习实战笔记--第一部分分类算法：KNN算法 3》

现在我们要做一个小程序，通过输入一些信息，程序就会给出预测值。将下面的代码加入KNN.py中:def classifyPerson(): resultList = ['not at all','in small doses','in large doses'] percentTats = float(input("percentage of time spent playing v...

2018-04-18 14:08:59 165

原创《机器学习实战笔记--第一部分分类算法：KNN算法 2》

分类器并不会得到百分百正确的结果。检验分类器给出的结果是否符合预期的结果，我们可以用错误率来进行评估。上一节实验的分类器并没有太大的实际作用，我们将在现实世界中实现k-近邻算法。首先我们会使用k-近邻算法改进约会网站的效果，然后使用k-近邻算法改进手写识别系统。实例：在约会网站上使用KNN（1）收集数据：提供文本文件（2）准备数据：使用python解析文本文件（3）分析数据：使用matplotli...

2018-04-17 18:22:55 274

转载如何用VSCode愉快的写Python

在学习Python的过程中，一直没有找到比较趁手的第三方编辑器，用的最多的还是Python自带的编辑器。由于本人用惯了宇宙第一IDE（Visual Studio），所以当Visual Studio Code出现时，心情有点小激动呢。从我的使用经验出发，可以说VSCode用来写Python真的是再合适不过了，你将体验到丝滑的编程体验和无限扩展的可能。而且，如果你的项目是包含多种语言的，比如Web开发...

2018-04-17 14:12:02 1794

转载 scatter()各个参数详解

最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python] view plain copy#导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产...

2018-04-16 17:13:00 35851

原创《机器学习实战笔记--第一部分分类算法：KNN算法 1》

在监督学习中，我们只需要输入给定的样本集，机器就可以推出指定目标变量的可能结果。监督学习一般使用两种类型的目标变量：标称值和数值型。标称值目标变量只在有限目标中取值，数值型目标变量则从无限的数值中取值。分类算法：第二章：k-近邻算法，使用距离矩阵进行分类；第三章：决策树；第四章：讨论使用概率论建立分类器； ...

2018-04-16 16:01:02 224

qq_41635352的博客