自然语言处理入门 - 目录

自然语言处理入门

第1章 新手上路

1.1自然语言与编程语言.2

1.1.1词汇量.2
1.1.2结构化.2
1.1.3歧义性.3
1.1.4容错性.3
1.1.5易变性.4
1.1.6简略性.4

1.2自然语言处理的层次.4

1.2.1语音、图像和文本…5
1.2.2中文分词、词性标注和命名实体识别.5
1.2.3信息抽取.6
1.2.4文本分类与文本聚类…6
1.2.5句法分析.6
1.2.6语义分析与篇章分析…7
1.2.7其他高级任务7

1.3自然语言处理的流派.8

1.3.1基于规则的专家系统…8
1.3.2基于统计的学习方法…9
1.3.3历史.9
1.3.4规则与统计.11
1.3.5传统方法与深度学习11

1.4机器学习…12

1.4.1什么是机器学习13
1.4.2模型…13
1.4.3特征…13
1.4.4数据集…15
1.4.5监督学习…16
1.4.6无监督学习.17
1.4.7其他类型的机器学习算法…18

1.5语料库19

1.5.1中文分词语料库19
1.5.2词性标注语料库19
1.5.3命名实体识别语料库20
1.5.4句法分析语料库20
1.5.5文本分类语料库20
1.5.6语料库建设.21

1.6开源工具…21

1.6.1主流NLP工具比较…21
1.6.2Python接口23
1.6.3Java接口.28

1.7总结.31

第2章 词典分词

2.1什么是词…32

2.1.1词的定义…32
2.1.2词的性质–齐夫定律…33

2.2词典.34

2.2.1HanLP词典.34
2.2.2词典的加载.34

2.3切分算法…36

2.3.1完全切分…36
2.3.2正向最长匹配.37
2.3.3逆向最长匹配.39
2.3.4双向最长匹配.40
2.3.5速度评测…43

2.4字典树46

2.4.1什么是字典树.46
2.4.2字典树的节点实现47
2.4.3字典树的增删改查实现…48
2.4.4首字散列其余二分的字典树.50
2.4.5前缀树的妙用.53

2.5双数组字典树55

2.5.1双数组的定义.55
2.5.2状态转移…56
2.5.3查询…56
2.5.4构造*57
2.5.5全切分与最长匹配60

2.6AC自动机…60

2.6.1从字典树到AC自动机61
2.6.2goto表61
2.6.3output表…62
2.6.4fail表63
2.6.5实现…65

2.7基于双数组字典树的AC自动机.67

2.7.1原理…67
2.7.2实现…67

2.8HanLP的词典分词实现71

2.8.1DoubleArrayTrieSegment72
2.8.2AhoCorasickDoubleArrayTrie-Segment.73

2.9准确率评测.74

2.9.1准确率…74
2.9.2混淆矩阵与TP/FN/FP/TN…75
2.9.3精确率…76
2.9.4召回率…76
2.9.5F1值…77
2.9.6中文分词中的P、R、F1计算…77
2.9.7实现…78
2.9.8第二届国际中文分词评测…79
2.9.9OOVRecallRate与IVRecallRate.81

2.10字典树的其他应用.83

2.10.1停用词过滤…83
2.10.2简繁转换87
2.10.3拼音转换90

2.11总结.91

第3章 二元语法与中文分词

3.1语言模型…92

3.1.1什么是语言模型92
3.1.2马尔可夫链与二元语法…94
3.1.3n元语法…95
3.1.4数据稀疏与平滑策略96

3.2中文分词语料库.96

3.2.11998年《人民日报》语料库PKU.97
3.2.2微软亚洲研究院语料库MSR98
3.2.3繁体中文分词语料库98
3.2.4语料库统计.99

3.3训练.100

3.3.1加载语料库…101
3.3.2统计一元语法…101
3.3.3统计二元语法…103

3.4预测…104

3.4.1加载模型104
3.4.2构建词网107
3.4.3节点间的距离计算111
3.4.4词图上的维特比算法.112
3.4.5与用户词典的集成115

3.5评测…118

3.5.1标准化评测…118
3.5.2误差分析118
3.5.3调整模型119

3.6日语分词122

3.6.1日语分词语料…122

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值