HanLP《自然语言处理入门》目录

最近买了HanLP的《自然语言处理入门》学习,想在公司闲暇时也正好看看,于是就记录一下目录在这里,方便查看。目前还不全…持续更新中

第2章 词典分词

  • 2.1 什么是词
    • 2.1.1 词的定义
    • 2.1.2 词的性质 - 齐夫定律
  • 2.2 词典
    • 2.2.1 HanLP词典
    • 2.2.2 词典的加载
  • 2.3 切分算法
    • 2.3.1 完全切分
    • 2.3.2 正向最长匹配
    • 2.3.3 逆向最长匹配
    • 2.3.4 双向最长匹配
    • 2.3.5 速度评测
  • 2.4 字典树
    • 2.4.1 什么是字典树
    • 2.4.2 字典树的节点实现
    • 2.4.3 字典树的增删改查
    • 2.4.4 首字散列其余二分的字典树
    • 2.4.5 前缀树的作用
  • 2.5 双数组字典树
    • 2.5.1 双数组的定义
    • 2.5.2 状态转移
    • 2.5.3 查询
    • 2.5.4 构造
    • 2.5.5 全切分与最长匹配
  • 2.6 AC自动机
    • 2.6.1 从字典树到AC自动机
    • 2.6.2 goto 表
    • 2.6.3 output表
    • 2.6.4 fail表
    • 2.6.5 实现
    • 2.7 基于双数组字典树的AC自动机
    • 2.7.1 原理
    • 2.7.2 实现
  • 2.8 HanLP的词典分词实现
    • 2.8.1 DoubleArrayTriesSegment
    • 2.8.2 AhoCorasickDoubleArrayTrieSegment
  • 2.9 准确率评测
    • 2.9.1 准确率
    • 2.9.2 混淆矩阵与TP/FN/FP/TN
    • 2.9.3 精确率
    • 2.9.4 召回率
    • 2.9.5 F1值
    • 2.9.6 中文分词中的P、R、F1计算
    • 2.9.7 实现
    • 2.9.8 第二届国际中文分词评测
    • 2.9.9 OOV Recall Rate 与 IV Recall Rate
  • 2.10 字典树的其他应用
    • 2.10.1 停用过滤词
    • 2.10.2 简繁转换
    • 2.10.3 拼音转换

第3章 二元语法与中文词

  • 3.1 语言模型
    • 3.1.1 什么是语言模型
    • 3.1.2 马尔可夫链与二元语法
    • 3.1.3 n元语法
    • 3.1.4 数据稀疏与平滑策略
  • 3.2 中文分词语料库
    • 3.2.1 1998年《人民日报》语料库PKU
    • 3.2.2 微软亚洲研究院语料库MSR
    • 3.2.3 繁体中文分词语料库
    • 3.2.4 语料库统计
  • 3.3 训练
    • 3.3.1 加载语料库
    • 3.3.2 统计一元语法
    • 3.3.3 统计二元语法
  • 3.4 预测
    • 3.4.1 加载模型
    • 3.4.2 构建词网
    • 3.4.3 节点间的举例计算
    • 3.4.4 词图上的维特比算法
    • 3.4.5 与用户词典的集成
  • 3.5 评测
    • 3.5.1 标准化评测
    • 3.5.2 误差分析
    • 3.5.3 调整模型
  • 3.6 日语分词
    • 3.6.1 日语分词语料
    • 3.6.2 训练日语分词器
  • 3.7 总结
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值