nlp
rebellion51
这个作者很懒,什么都没留下…
展开
-
汉字字频统计程序(Python版+C语言版)
汉字字频统计程序(Python版+C语言版)用Python和C语言写了一个统计汉字字频的小程序,作为笔记,以供借鉴。原创 2015-06-29 15:19:46 · 3955 阅读 · 1 评论 -
汉字字频统计程序(Python版)
用Python写了一个汉字词频统计程序,针对已经分好词的文本。原创 2015-06-29 15:26:46 · 3650 阅读 · 0 评论 -
HMM最大匹配分词算法(Python)
正向最大匹配算法是我国最早提出的解决中文分词问题的算法,因其简单易操作,至今仍作为机器分词的粗分算法,在今天看来,这种算法的准确率远不够高,无法达到令人满意的要求。这只是一次练习。待切分文本是: 我和你共同创造美好的新生活词典: 共同,创造,美好,的,新,生活预期分词效果: 我 和 你 共同 创造 美好 的 新 生活# Python 3.4.3lexicon = ('共同','创造','美好'原创 2015-06-29 15:49:03 · 1942 阅读 · 0 评论 -
用Python进行自然语言处理-1. Language Processing and Python
《用Python进行自然语言处理》是一本结合了自然语言处理和Python知识的入门书籍,现在书籍正在出第二版,预计2016年完成。第二版是与Python 3配套的,很多地方都要修改。附上书籍原地址链接:《用Python进行自然语言处理》安装过程和语料下载就不说了,这里直接开始实战:1. 查找文本1.1 用文本的concordance方法查找某个词。当然首先要from nltk.book import翻译 2015-07-27 15:41:57 · 997 阅读 · 0 评论 -
用Python进行自然语言处理-2. Accessing Text Corpora and Lexical Resources
1. 处理文本语料库1.1 古腾堡语料库这是一个电子书语料库,目前提供49,000本免费电子书。 我们可以看看nltk里集成了多少电子书:>>> import nltk>>> nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt翻译 2015-07-27 16:59:18 · 767 阅读 · 0 评论