2015年09月_无限大地NLP_空木

11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 python若干小函数的使用

preface: 在使用python的路上，总会遇到各种问题，各种trick，正如《编写高质量代码——改善Python编程的91个建议》，以下也是自己在路上不断积累并且觉得有用的trick。1.字典的get()函数：

2015-09-03 20:43:49 2216

原创《机器学习实战》笔记之十三——利用PCA来简化数据

第十三章利用PCA来简化数据降维技术主成分分析（PCA）对半导体数据进行降维处理13.1降维技术简化数据目的：使得数据集更易使用；降低很多算法的计算开销；去除噪声；使得结果易懂；降维方法：主成分分析（Principal Component Analysis,

2015-09-29 20:48:44 4775 11

转载 python 机器学习——文本特征抽取与向量化

假设我们刚看完诺兰的大片《星际穿越》，设想如何让机器来自动分析各位观众对电影的评价到底是“赞”（positive）还是“踩”（negative）呢？这类问题就属于情感分析问题。这类问题处理的第一步，就是将文本转换为特征。因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化。由于中文的处理涉及到分词问题，本文用一个简单的例子来说明如何使用Python的机器学习库，对

2015-09-28 11:14:46 5596 8

转载 vim 配置文件——强大的vim配置文件，让编程更随意

花了很长时间整理的，感觉用起来很方便，共享一下。我的vim配置主要有以下优点：1.按F5可以直接编译并执行C、C++、java代码以及执行shell脚本，按“F8”可进行C、C++代码的调试2.自动插入文件头，新建C、C++源文件时自动插入表头：包括文件名、作者、联系方式、建立时间等，读者可根据需求自行更改3.映射“Ctrl + A”为全选并复制快捷键，方便复制代

2015-09-14 09:11:42 662

原创《机器学习实战》笔记之七——利用AdaBoost元算法提高分类性能

第七章利用AdaBoost元算法提高分类性能7.1 基于数据集多重抽样的分类器7.2 训练算法：基于错误提升分类器的性能7.3 基于单层决策树构建弱分类器7.4 完整AdaBoost算法的实现7.5 测试算法：基于AdaBoost的分类7.6 示例：在一个难数据集上应用AdaBoost7.7 非均衡分类问题

2015-09-12 16:47:35 907

原创《机器学习实战》笔记之五——Logistic回归

第五章 Logistic回归回归：对一些数据点，算法训练出直线参数，得到最佳拟合直线，能够对这些点很好的拟合。训练分类器主要是寻找最佳拟合参数，故为最优化算法。5.1 基于Logistic回归和sigmoid函数的分类实现Logistic回归分类器：在每个特征上都乘以一个回归系数，然后把所有的结果值相加，总和带入sigmoid函数，其结果大于0.5分为第0类，结

2015-09-07 22:48:53 5552 3

原创《机器学习实战》笔记之四——基于概率论的分类方法：朴素贝叶斯

第四章基于概率论的分类方法：朴素贝叶斯基础：统计特征在数据集中取某个特定值的次数，然后除以数据集的实例总数，得到特征取该值的概率。4.1 基于贝叶斯理论的分类方法假设有两类数据组成的数据集如下：假设：p1(x,y)表示数据点(x,y)属于类别1的概率。p2(x,y)表示数据点(x,y)属于类别2的概率。贝叶斯决策理论的核心思想：选择

2015-09-06 11:53:28 3349 3

原创《机器学习实战》笔记之三——决策树的构造

第三章决策树的构造决策树简介在数据集中度量一致性使用递归构造决策树使用Matplotlib绘制树形图决策树主要优势：数据形式非常容易理解。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征。缺点：可能会产生过度匹配问题，即过拟合问题。例子：长方形：判断模块椭圆形：终止模块左右箭头

2015-09-03 23:27:03 5015 1

原创《机器学习实战》笔记之二——K-近邻算法

第二章 K-近邻算法K-近邻算法从文本文件中解析和导入数据使用Matplotlib创建扩展图归一化数值2.1 k-近邻算法概述工作原理：存在一个样本数据集合，并且样本集中每个数据都存在标签（即目标变量，哪个类别）。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，取样本数据集中前

2015-09-02 20:12:15 3075

原创《机器学习实战》笔记一——机器学习基础

第一章机器学习基础机器学习的简单概述机器学习的主要任务学习机器学习的原因python语言机器学习用途广泛：当人们点击搜索引擎返回给人们的链接，搜索引擎能够记录这次点击并通过机器学习优化下次搜索结果; 通过机器学习可以在后台自动检测过滤垃圾广告邮件; 基于以往的统计知识，可以知道用户很多习惯，从而为用户提供更好的选择; 通过手写识别软件识别正确的手写地址加快邮件分拣等。人们生活

2015-09-01 22:37:17 1397