译者序
前言
第1章自然语言基础
11自然语言
111什么是自然语言
112语言哲学
113语言习得和用法
12语言学
13语言句法和结构
131词
132短语
133从句
134语法
135语序类型学
14语言语义
141词汇语义关系
142语义网络和模型
143语义表示
15文本语料库
151文本语料库标注及使用
152热门的语料库
153访问文本语料库
16自然语言处理
161机器翻译
162语音识别系统
163问答系统
164语境识别与消解
165文本摘要
166文本分类
17文本分析
18小结
第2章Python语言回顾
21了解Python
211Python之禅
212应用:何时使用Python
213缺点:何时不用Python
214Python实现和版本
22安装和设置
221用哪个Python版本
222用哪个操作系统
223集成开发环境
224环境设置
225虚拟环境
23Python句法和结构
24数据结构和类型
241数值类型
242字符串
243列表
244集合
245字典
246元组
247文件
248杂项
25控制代码流
251条件结构
252循环结构
253处理异常
26函数编程
261函数
262递归函数
263匿名函数
264迭代器
265分析器
266生成器
267itertools和functools模块
27类
28使用文本
281字符串文字
282字符串操作和方法
29文本分析框架
210小结
第3章处理和理解文本
31文本切分
311句子切分
312词语切分
32文本规范化
321文本清洗
322文本切分
323删除特殊字符
324扩展缩写词
325大小写转换
326删除停用词
327词语校正
328词干提取
329词形还原
33理解文本句法和结构
331安装必要的依赖项
332机器学习重要概念
333词性标注
334浅层分析
335基于依存关系的分析
336基于成分结构的分析
34小结
第4章文本分类
41什么是文本分类
42自动文本分类
43文本分类的蓝图
44文本规范化处理
45特征提取
451词袋模型
452TFIDF模型
453高级词向量模型
46分类算法
461多项式朴素贝叶斯
462支持向量机
47评估分类模型
48建立一个多类分类系统
49应用
410小结
第5章文本摘要
51文本摘要和信息提取
52重要概念
521文档
522文本规范化
523特征提取
524特征矩阵
525奇异值分解
53文本规范化
54特征提取
55关键短语提取
551搭配
552基于权重标签的短语提取
56主题建模
561隐含语义索引
562隐含Dirichlet分布
563非负矩阵分解
564从产品评论中提取主题
57自动文档摘要
571隐含语义分析
572TextRank算法
573生成产品说明摘要
58小结
第6章文本相似度和聚类
61重要概念
611信息检索
612特征工程
613相似度测量
614无监督的机器学习算法
62文本规范化
63特征提取
64文本相似度
65词项相似度分析
651汉明距离
652曼哈顿距离
653欧几里得距离
654莱文斯坦编辑距离
655余弦距离和相似度
66文档相似度分析
661余弦相似度
662海灵格-巴塔恰亚距离
663Okapi BM25排名
67文档聚类
68最佳影片聚类分析
681kmeans聚类
682近邻传播聚类
683沃德凝聚层次聚类
69小结
第7章语义与情感分析
71语义分析
72探索WordNet
721理解同义词集
722分析词汇的语义关系
73词义消歧
74命名实体识别
75分析语义表征
751命题逻辑
752一阶逻辑
76情感分析
77IMDb电影评论的情感分析
771安装依赖程序包
772准备数据集
773有监督的机器学习技术
774无监督的词典技术
775模型性能比较
78小结