《Python自然语音处理》简要笔记

第一章 语言处理与Python
1.1 文本和词汇 基本讲了NLTK入门,concordance,similar,common_contexts,generate,标识符(所有单词计数len),类型(单词类型总数set),词汇多样性(单词平均词频)
1.2 将文本当做链表 其实就是将文本中的单词变成list中的元素
1.3 简单的统计 词频率,词语搭配(bigram,2-gram)red wine和the wine,计算其它东西,不同词长度的出现次数。
1.4 回到Python:决策与控制 python [] 嵌套等
1.5 自动理解自然语言 词意消歧,指代消解,自动生成语言,机器翻译,人机对话系统,文本的含义。

第二章 获得文本语料和词汇资源
2.1 获取文本语料库 基本是说NLTK的基本语料库,还有添加自己语料的教程
2.2 条件分布
(1)计算不同类型的文本,词语的频率,比如说News,和Romance类型中文本中哪些词用得多,使用conditionalFreqDist.
(2)使用双连词(bigram,2-gram)生成随机文本,计算出双连词频率后,给定一个单词,比如living ,然后给出紧跟单词 creature
2.3 更多关于Python:代码重用 讲了一下python编程
2.4 词典资源
(1)词汇表,停用词,可检查罕见词汇或者拼写错误单词
(2)发音词典,在NLTK中包括美国英语的CMU发音词典,每个单词都有其发音,可通过发音找押韵词
(3)比较词典,在NLTK中包含了多种语言的翻译关系,斯瓦迪士核心此列表swadesh
(4)词汇工具,Toolbox,Shoebox目前最流行的语言学家用来管理数据的工具,包含了各种语言词汇,词性,和其它语言翻译关系
2.5 WordNet
1.WordNet面向语义的英语词典,之所以命名有Net说明其具有层次结构,结构包含了同义词,上下级关系等,可用来查找同义词,语义相似度

第三章 处理原始文本
3.1 从网络和硬盘访问文本
(1)通过本地磁盘访问,进行切词
(2)通过url直接访问网页
(3)通过搜索引擎获取信息,比如搜索”the of”然后会出现啥东西,该结果就可以说是和”the of”相匹配
(4)可通过feedparser第三方库爬去博客信息
(5)PDF,Word这种二进制文件可以使用第三方库pypdf,pywin32
3.2 字符串:最底层处理 其实就是一些python字符串处理方法
3.3 使用Unicode进行文本处理
3.4 使用正则表达式检测词组搭配
3.5 正则表达式的有益应用 元音匹配,查找词干
3.6 规范化文本 词干提取器,词形归并
3.7 用正则表达式为文本分词
3.8 分割 断句,分词
3.9 格式化:从链表到字符串 一些字符串和链表的转换,格式化等等,可以采用textwrap模块进行格式化输出

第四章 编写结构化程序
整章都在介绍python编程基础

第五章 分类和标注词汇
5.1 使用磁性标注器
5.2 标注语料库
5.3 使用Python字典映射词及属性
5.4 自动标注(自动词性标注)
5.5 N-gram标注(在标注之前,考虑前N个词后再标记)
5.6 基于转换的标注
5.7 如何确定一个词的分类

第六章 学习分类文本
6.1 监督式分类
(1)NLTK有内置的分类算法
(2)探索上下文语境,根据上下文语境,将特征词的词性作为特征加进来
6.2 监督式分类举例
(1)句子分割
(2)识别对话行为类型
(3)识别文字蕴涵
6.3 评估
6.4 决策树
6.5 朴素贝叶斯分类器
6.6 最大熵分类器
6.7 为语言模式建模

第七章 从文本提取信息
7.1 信息提取
例子:给出一段文本,输出xxx公司及公司的位置
流程
断句(句子分割器)->分词(分词器)->(词性标注)->命名实体识别(分块技术)->确认关系
7.2 分块
7.3 开发和评估分块器
7.4 语言结构中的递归
7.5 命名实体识别
7.6 关系抽取

第八章 分析句子结构
未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值