文本
artemisrj
这个作者很懒,什么都没留下…
展开
-
文本检索 coursera公开课
nlp的一个句子的例子。pull,push,query,browse的概念和关系。原创 2015-03-24 21:49:37 · 707 阅读 · 0 评论 -
英语断句
一种方式是利用nltk的断句功能 http://www.nltk.org/api/nltk.tokenize.html nltk.tokenize.punkt 模块断句的问题:简单的断句虽然可以利用一些标点符号断句,但是这里面有个问题是比如姓氏 Mr. Smith这样的句子,断句就会有问题。这个模块需要大的预料库进行训练 。 用法也很简单>>> import nltk.data>>> te原创 2016-01-07 22:09:40 · 2929 阅读 · 0 评论 -
linux系统下的文本处理,awk,sed
当时看到shell文件下面有这样一个函数,当时觉得使用起来还是很简单的,而且处理文本速度蛮快的。normalize_text() { awk '{print tolower($0);}' | sed -e "s/’/'/g" -e "s/′/'/g" -e "s/''/ /g" -e "s/'/ ' /g" -e "s/“/\"/g" -e "s/”/\"/g" \ -e 's/"/ " /原创 2016-03-06 10:46:18 · 563 阅读 · 0 评论