NLTK
longji
-
NLTK01 《NLTK基础教程--用NLTK和Python库构建机器学习应用》
01 关于NLTK的认知 很多介绍NLP的,都会提到NLTK库。还以为NLTK是多牛逼的必需品。看了之后,感觉NLTK对实际项目,作用不大。很多内容都是从语义、语法方面解决NLP问题的。感觉不太靠谱。而且本身中文语料库不多。很多介绍NLTK的书籍和blog都比较陈旧。 《NLTK基础教程--用NLTK和Python库构建机器学习应用》虽然是2017年6月第一版。但内容大部分还是很陈旧的。基本都是采原创 2017-08-14 17:01:12 · 6464 阅读 · 3 评论 -
NLTK11《Python自然语言处理》code10 分析语句的含义
分析语句的含义# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 10 分析语句的含义# pnlp10.py# 更官方的参考 http://www.nltk.org/book/ch10.html# 需要特别关注prover9的安装# pip3 install prove# htt原创 2017-08-31 16:25:02 · 1278 阅读 · 2 评论 -
NLTK10《Python自然语言处理》code09 建立基于特征的文法
建立基于特征的文法# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 09 建立基于特征的文法# pnlp09.pyimport nltk# 9.1 文法特征kim = {'CAT': 'NP', 'ORTH': 'Kim', 'REF': 'k'}chase = {'CAT':原创 2017-08-31 16:23:47 · 510 阅读 · 0 评论 -
NLTK09《Python自然语言处理》code08 分析句子结构
分析句子结构# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 08 分析句子结构# pnlp08.py# 8.1 一些语法困境# 语言数据和无限可能性# 普遍存在的歧义import nltkgroucho_grammar = nltk.CFG.fromstring("""S原创 2017-08-31 16:22:32 · 953 阅读 · 0 评论 -
NLTK08《Python自然语言处理》code07 从文本提取信息
从文本提取信息# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 07 从文本提取信息# pnlp07.py# 7.1 信息提取# 信息提取结构import nltkdef ie_preprocess(document): sentences = nltk.sent_to原创 2017-08-31 16:21:22 · 1706 阅读 · 0 评论 -
NLTK07《Python自然语言处理》code06 学习分类文本
学习分类文本# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 06 学习分类文本# pnlp06.py 本部分代码有几个训练比较耗时,大约需要60+分钟# 6.1 监督式分类def gender_features(word): return {'last_letter':w原创 2017-08-31 16:19:49 · 718 阅读 · 0 评论 -
NLTK06《Python自然语言处理》code05 分类和标注词汇
分类和标注词汇# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 05 分类和标注词汇# pnlp05.py# 5.1 使用词性标注器# 词性标注器(part-of-speech tagger|POS tagger)import nltktext = nltk.word_toke原创 2017-08-29 16:47:41 · 600 阅读 · 0 评论 -
NLTK05《Python自然语言处理》code04 编写结构化程序
编写结构化程序# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 04 编写结构化程序# pnlp04.py# 4.1 回到基础# 赋值foo = 'Monty'bar = foofoo = 'Python'print(bar) # Montyfoo = ['Monty',原创 2017-08-29 16:46:21 · 761 阅读 · 0 评论 -
NLTK04《Python自然语言处理》code03 处理原始文本
处理原始文本# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 03 处理原始文本# pnlp03.pyfrom __future__ import divisionimport nltk, re, pprint# 3.1 从网络和硬盘访问文本# 电子书# pip3 instal原创 2017-08-29 16:44:52 · 1045 阅读 · 0 评论 -
NLTK03 《Python自然语言处理》code02 获得文本语料和词汇资源
02 获得文本语料和词汇资源# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 02 获得文本语料和词汇资源# pnlp02.py# 2.1 获取文本语料库# 古滕堡语料库import nltkgtb = nltk.corpus.gutenberg.fileids()print原创 2017-08-29 16:43:00 · 1400 阅读 · 0 评论 -
NLTK02 《Python自然语言处理》code01 语言处理与Python
01 语言处理与Python# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》01 语言处理与Python# 安装nltk库# pip3 install nltk==3.2.4# 下载nltk数据,nltk_data'''import nltknltk.download()#原创 2017-08-29 16:40:24 · 749 阅读 · 0 评论 -
NLTK12《Python自然语言处理》code11 语言数据管理
语言数据管理# -*- coding: utf-8 -*-# win10 python3.5.3/python3.6.1 nltk3.2.4# 《Python自然语言处理》 11 语言数据管理# pnlp11.pyimport nltk# 11.1 语料库结构:案例研究phonetic = nltk.corpus.timit.phones('dr1-fvmh0/sa1')print(ph原创 2017-08-31 23:53:26 · 652 阅读 · 0 评论