自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(11)
  • 资源 (13)
  • 收藏
  • 关注

原创 python若干小函数的使用

preface: 在使用python的路上,总会遇到各种问题,各种trick,正如《编写高质量代码——改善Python编程的91个建议》,以下也是自己在路上不断积累并且觉得有用的trick。1.字典的get()函数:

2015-09-03 20:43:49 2216

原创 《机器学习实战》笔记之十三——利用PCA来简化数据

第十三章 利用PCA来简化数据降维技术主成分分析(PCA)对半导体数据进行降维处理13.1降维技术简化数据目的:使得数据集更易使用;降低很多算法的计算开销;去除噪声;使得结果易懂;降维方法:主成分分析(Principal Component Analysis,

2015-09-29 20:48:44 4775 11

转载 python 机器学习——文本特征抽取与向量化

假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这类问题处理的第一步,就是将文本转换为特征。因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量化。由于中文的处理涉及到分词问题,本文用一个简单的例子来说明如何使用Python的机器学习库,对

2015-09-28 11:14:46 5596 8

转载 vim 配置文件——强大的vim配置文件,让编程更随意

花了很长时间整理的,感觉用起来很方便,共享一下。我的vim配置主要有以下优点:1.按F5可以直接编译并执行C、C++、java代码以及执行shell脚本,按“F8”可进行C、C++代码的调试2.自动插入文件头 ,新建C、C++源文件时自动插入表头:包括文件名、作者、联系方式、建立时间等,读者可根据需求自行更改3.映射“Ctrl + A”为全选并复制快捷键,方便复制代

2015-09-14 09:11:42 662

原创 《机器学习实战》笔记之七——利用AdaBoost元算法提高分类性能

第七章 利用AdaBoost元算法提高分类性能7.1 基于数据集多重抽样的分类器7.2 训练算法:基于错误提升分类器的性能7.3 基于单层决策树构建弱分类器7.4 完整AdaBoost算法的实现7.5 测试算法:基于AdaBoost的分类7.6 示例:在一个难数据集上应用AdaBoost7.7 非均衡分类问题

2015-09-12 16:47:35 907

原创 《机器学习实战》笔记之五——Logistic回归

第五章 Logistic回归回归:对一些数据点,算法训练出直线参数,得到最佳拟合直线,能够对这些点很好的拟合。训练分类器主要是寻找最佳拟合参数,故为最优化算法。5.1 基于Logistic回归和sigmoid函数的分类实现Logistic回归分类器:在每个特征上都乘以一个回归系数,然后把所有的结果值相加,总和带入sigmoid函数,其结果大于0.5分为第0类,结

2015-09-07 22:48:53 5552 3

原创 《机器学习实战》笔记之四——基于概率论的分类方法:朴素贝叶斯

第四章 基于概率论的分类方法:朴素贝叶斯基础:统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。4.1 基于贝叶斯理论的分类方法假设有两类数据组成的数据集如下:假设:p1(x,y)表示数据点(x,y)属于类别1的概率。p2(x,y)表示数据点(x,y)属于类别2的概率。贝叶斯决策理论的核心思想:选择

2015-09-06 11:53:28 3349 3

原创 《机器学习实战》笔记之三——决策树的构造

第三章 决策树的构造决策树简介在数据集中度量一致性使用递归构造决策树使用Matplotlib绘制树形图决策树主要优势:数据形式非常容易理解。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征。缺点:可能会产生过度匹配问题,即过拟合问题。例子:长方形:判断模块椭圆形:终止模块左右箭头

2015-09-03 23:27:03 5015 1

原创 《机器学习实战》笔记之二——K-近邻算法

第二章 K-近邻算法K-近邻算法从文本文件中解析和导入数据使用Matplotlib创建扩展图归一化数值2.1 k-近邻算法概述工作原理:存在一个样本数据集合,并且样本集中每个数据都存在标签(即目标变量,哪个类别)。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,取样本数据集中前

2015-09-02 20:12:15 3075

原创 《机器学习实战》笔记一——机器学习基础

第一章 机器学习基础机器学习的简单概述机器学习的主要任务学习机器学习的原因python语言机器学习用途广泛:当人们点击搜索引擎返回给人们的链接,搜索引擎能够记录这次点击并通过机器学习优化下次搜索结果; 通过机器学习可以在后台自动检测过滤垃圾广告邮件; 基于以往的统计知识,可以知道用户很多习惯,从而为用户提供更好的选择; 通过手写识别软件识别正确的手写地址加快邮件分拣等。人们生活

2015-09-01 22:37:17 1397

原创 python string包——简易函数使用

python string模块的一些小函数示例

2015-09-01 11:35:11 2369

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除