自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(1)
  • 资源 (13)
  • 收藏
  • 关注

原创 python lxml包——解析xml文件遇到的问题处理

preface: 最近的任务需要解析xml文件,毋庸置疑用lxml,普通的解析流程网上博客甚多w3cschool里的就足够了,不用再赘言。可是处理的文件里面,明明有那个结点但xpath就是找不到,不知道为何,查找资料用print大法找到了目标,先记录下来。 print node print node.attrib print node.xpath("child::*") print no

2016-05-03 23:01:54 4023

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

Python标准库

本书介绍了各种python代码库,介绍了python各种包的使用,python爱好者、开发者必看的一本枕边书。

2014-11-02

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

算法导论-电子书

IT界,没看过《算法导论》的,可以回家了,最为基础的书籍,关于算法和数据结构方面的。神书,不解释

2014-04-22

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

python精要参考

虽然关于python语言的学习类的基础书一大堆,但是精简的却很少,《python精要参考》没那么多废话,确实可以参考参考

2014-04-22

计算机编程艺术

神书,不解释,《计算机编程艺术》,关于编程的一切技巧介绍之类的

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除