《Python自然语音处理》简要笔记

最新推荐文章于 2024-07-01 08:58:55 发布

姚贤贤

最新推荐文章于 2024-07-01 08:58:55 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：自然语言处理 NLP 机器学习人工智能 NLTK

本文链接：https://blog.csdn.net/u011311291/article/details/79400953

版权

机器学习专栏收录该内容

85 篇文章 6 订阅

订阅专栏

第一章语言处理与Python
1.1 文本和词汇基本讲了NLTK入门，concordance,similar,common_contexts,generate,标识符(所有单词计数len),类型（单词类型总数set），词汇多样性(单词平均词频)
1.2 将文本当做链表其实就是将文本中的单词变成list中的元素
1.3 简单的统计词频率，词语搭配(bigram,2-gram)red wine和the wine,计算其它东西，不同词长度的出现次数。
1.4 回到Python:决策与控制 python [] 嵌套等
1.5 自动理解自然语言词意消歧，指代消解，自动生成语言，机器翻译，人机对话系统，文本的含义。

第二章获得文本语料和词汇资源
2.1 获取文本语料库基本是说NLTK的基本语料库，还有添加自己语料的教程
2.2 条件分布
(1)计算不同类型的文本，词语的频率，比如说News，和Romance类型中文本中哪些词用得多，使用conditionalFreqDist.
(2)使用双连词(bigram,2-gram)生成随机文本，计算出双连词频率后，给定一个单词，比如living ,然后给出紧跟单词 creature
2.3 更多关于Python:代码重用讲了一下python编程
2.4 词典资源
(1)词汇表，停用词，可检查罕见词汇或者拼写错误单词
(2)发音词典，在NLTK中包括美国英语的CMU发音词典，每个单词都有其发音，可通过发音找押韵词
(3)比较词典，在NLTK中包含了多种语言的翻译关系，斯瓦迪士核心此列表swadesh
(4)词汇工具，Toolbox,Shoebox目前最流行的语言学家用来管理数据的工具，包含了各种语言词汇，词性，和其它语言翻译关系
2.5 WordNet
1.WordNet面向语义的英语词典，之所以命名有Net说明其具有层次结构，结构包含了同义词，上下级关系等，可用来查找同义词，语义相似度

第三章处理原始文本
3.1 从网络和硬盘访问文本
(1)通过本地磁盘访问，进行切词
(2)通过url直接访问网页
(3)通过搜索引擎获取信息，比如搜索”the of”然后会出现啥东西，该结果就可以说是和”the of”相匹配
(4)可通过feedparser第三方库爬去博客信息
(5)PDF,Word这种二进制文件可以使用第三方库pypdf,pywin32
3.2 字符串:最底层处理其实就是一些python字符串处理方法
3.3 使用Unicode进行文本处理
3.4 使用正则表达式检测词组搭配
3.5 正则表达式的有益应用元音匹配，查找词干
3.6 规范化文本词干提取器，词形归并
3.7 用正则表达式为文本分词
3.8 分割断句，分词
3.9 格式化:从链表到字符串一些字符串和链表的转换，格式化等等，可以采用textwrap模块进行格式化输出

第四章编写结构化程序
整章都在介绍python编程基础

第五章分类和标注词汇
5.1 使用磁性标注器
5.2 标注语料库
5.3 使用Python字典映射词及属性
5.4 自动标注(自动词性标注)
5.5 N-gram标注（在标注之前，考虑前N个词后再标记）
5.6 基于转换的标注
5.7 如何确定一个词的分类

第六章学习分类文本
6.1 监督式分类
(1)NLTK有内置的分类算法
(2)探索上下文语境，根据上下文语境，将特征词的词性作为特征加进来
6.2 监督式分类举例
(1)句子分割
(2)识别对话行为类型
(3)识别文字蕴涵
6.3 评估
6.4 决策树
6.5 朴素贝叶斯分类器
6.6 最大熵分类器
6.7 为语言模式建模

第七章从文本提取信息
7.1 信息提取
例子:给出一段文本，输出xxx公司及公司的位置
流程
断句(句子分割器)->分词(分词器)->(词性标注)->命名实体识别(分块技术)->确认关系
7.2 分块
7.3 开发和评估分块器
7.4 语言结构中的递归
7.5 命名实体识别
7.6 关系抽取

第八章分析句子结构
未完待续