python自然语言
开始编程的李先生
开始编程,开始pat准备
展开
-
To remove HTML markup, use BeautifulSoup's get_text() function解决方案
在学习python自然语言处理第三章处理html一节中,按照书上所示代码raw = nltk.clean_html(html) tokens = nltk.word_tokenize(raw)会产生错误,NotImplementedError: To remove HTML markup, use BeautifulSoup’s get_text() function,原因是nltk在Beauti原创 2016-03-09 16:10:30 · 3080 阅读 · 1 评论 -
正则表达式基本元字符,其中包括通配符,范围和闭包
如图原创 2016-03-10 09:55:36 · 1307 阅读 · 0 评论 -
正则表达式的有益应用(未完待续)
提取字符块 re.findall()方法,找出所有(无重叠的)匹配的指定正则表达式。例如找出一个词中的所有原因,并计数 word = "aairoweotiqkttms.ajkostalrtsetayk" re.findall(r'aeiou',word) 查找词干 re.findall(r'^.(*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$',word)但时存在原创 2016-03-10 10:19:51 · 675 阅读 · 0 评论 -
ascii' codec can't encode characters in position 598-599: ordinal not in range(128)解决方案
在Python脚本头添加 import sys reload(sys) sys.setdefaultencoding(‘utf8’)原创 2016-03-10 16:15:57 · 330 阅读 · 0 评论 -
正则匹配中\、{}、()和|的作用
反斜杠表示后面的字母不再有特殊的含义而是按照字面的意思匹配词中特定的字符。一次,虽然“.”有特殊含义,但是“\."只是匹配一个句号。 大括号表达式,如{3,5},表示前面的项目重复指定的次数。管道字符表示从其左边的内容和右边的内容中选择一个。圆括号表示一个操作符的范围,他们可以与管道符号一起使用,如<<w(i|e|ai|oo)t>>,匹配wit,wei,wait,woot。原创 2016-03-10 09:31:37 · 2118 阅读 · 0 评论 -
python中文问题 'ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)
在使用nltk中文语料库sinica_treebank时,先要显示中文却显示错误,'ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)查找资料解决方法如下: 在import sys添加reload(sys) sys.setdefaultencoding("utf-8")问题得到原创 2016-03-15 16:37:52 · 7024 阅读 · 1 评论