HanLP《自然语言处理入门》目录

最新推荐文章于 2022-01-01 16:15:56 发布

Tomonkey

最新推荐文章于 2022-01-01 16:15:56 发布

阅读量520

点赞数

分类专栏： HanLP

本文链接：https://blog.csdn.net/Tomonkey/article/details/103273944

版权

3 篇文章 0 订阅

订阅专栏

最近买了HanLP的《自然语言处理入门》学习，想在公司闲暇时也正好看看，于是就记录一下目录在这里，方便查看。目前还不全…持续更新中

2.1 什么是词
- 2.1.1 词的定义
- 2.1.2 词的性质 - 齐夫定律
2.2 词典
- 2.2.1 HanLP词典
- 2.2.2 词典的加载
2.3 切分算法
- 2.3.1 完全切分
- 2.3.2 正向最长匹配
- 2.3.3 逆向最长匹配
- 2.3.4 双向最长匹配
- 2.3.5 速度评测
2.4 字典树
- 2.4.1 什么是字典树
- 2.4.2 字典树的节点实现
- 2.4.3 字典树的增删改查
- 2.4.4 首字散列其余二分的字典树
- 2.4.5 前缀树的作用
2.5 双数组字典树
- 2.5.1 双数组的定义
- 2.5.2 状态转移
- 2.5.3 查询
- 2.5.4 构造
- 2.5.5 全切分与最长匹配
2.6 AC自动机
- 2.6.1 从字典树到AC自动机
- 2.6.2 goto 表
- 2.6.3 output表
- 2.6.4 fail表
- 2.6.5 实现
- 2.7 基于双数组字典树的AC自动机
- 2.7.1 原理
- 2.7.2 实现
2.8 HanLP的词典分词实现
- 2.8.1 DoubleArrayTriesSegment
- 2.8.2 AhoCorasickDoubleArrayTrieSegment
2.9 准确率评测
- 2.9.1 准确率
- 2.9.2 混淆矩阵与TP/FN/FP/TN
- 2.9.3 精确率
- 2.9.4 召回率
- 2.9.5 F1值
- 2.9.6 中文分词中的P、R、F1计算
- 2.9.7 实现
- 2.9.8 第二届国际中文分词评测
- 2.9.9 OOV Recall Rate 与 IV Recall Rate
2.10 字典树的其他应用
- 2.10.1 停用过滤词
- 2.10.2 简繁转换
- 2.10.3 拼音转换

3.1 语言模型
- 3.1.1 什么是语言模型
- 3.1.2 马尔可夫链与二元语法
- 3.1.3 n元语法
- 3.1.4 数据稀疏与平滑策略
3.2 中文分词语料库
- 3.2.1 1998年《人民日报》语料库PKU
- 3.2.2 微软亚洲研究院语料库MSR
- 3.2.3 繁体中文分词语料库
- 3.2.4 语料库统计
3.3 训练
- 3.3.1 加载语料库
- 3.3.2 统计一元语法
- 3.3.3 统计二元语法
3.4 预测
- 3.4.1 加载模型
- 3.4.2 构建词网
- 3.4.3 节点间的举例计算
- 3.4.4 词图上的维特比算法
- 3.4.5 与用户词典的集成
3.5 评测
- 3.5.1 标准化评测
- 3.5.2 误差分析
- 3.5.3 调整模型
3.6 日语分词
- 3.6.1 日语分词语料
- 3.6.2 训练日语分词器
3.7 总结

关注