自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(3)
  • 资源 (13)
  • 收藏
  • 关注

转载 Python Argparse包——命令行解析工具

最近在研究pathon的命令行解析工具,argparse,它是Python标准库中推荐使用的编写命令行程序的工具。用python来实现命令行,核心计算模块可以用c自己写扩展库,效果挺好。学习了argparse,在官方文档中找到一篇toturial,简单翻译了下。http://docs.python.org/2/howto/argparse.html#id1Argpa

2016-01-11 21:03:27 1740

转载 漫谈:机器学习中距离和相似性度量方法

在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0                    // 到自

2016-01-11 20:52:42 1115

原创 Python爬虫——爬取网页中的图片小试牛刀

Preface:以往爬取文本,这次需要爬取图片pdf,先上手一个例子,爬取pdf,先取得url,然后通过urllib.urlretrieve函数将url的网页内容远程下载到本地,第一个参数为url,第二个参数为文件名(代码中有误),第三个参数为回调函数,可以显示下载进度。另外,当需要爬取动态网站的图片时,用urllib.urlretrieve满足不了我们的要去需要"get",使用request.g

2016-01-06 21:57:34 3628

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除