自然语言
墨飏韶年
leetcode:https://leetcode-cn.com/problemset/all/
展开
-
自然语言处理(NLP)入门
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子...转载 2018-08-13 09:30:49 · 500 阅读 · 0 评论 -
NLTK学习笔记(一):语言处理和Python
目录目录 nltk资料下载 文本和词汇 搜索文本 计数词汇(去重、定位) 词链表 自然语言简单数学统计 频率分布 细粒度的选择词 双连词和词汇搭配 词长分布 目录nltk资料下载import nltknltk.download()其中,download() 参数默认是all,可以在脚本里面加上nltk.downlo...转载 2018-08-13 16:54:58 · 262 阅读 · 0 评论 -
NLTK学习笔记(二):文本、语料资源和WordNet汇总
目录语料库基本函数表 文本语料库分类 常见语料库及其用法 载入自定义语料库 词典资源 停用词语料库 WordNet面向语义的英语字典 语义相似度 语料库基本函数表示例 描述 fileids() 语料库中的文件 fileids([categories]) 对应分类中的语料库文件 categories() 语料库的分类 catego...原创 2018-08-13 16:58:44 · 603 阅读 · 0 评论 -
NLTK学习笔记(三):NLTK的一些工具
主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。条件分布频率《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口:FreqDist 和 ConditionalFreqDist 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找到条件。然后根据绘图的库,可以做出来很漂亮的图形。简单的FreqDist函数接...原创 2018-08-13 17:07:22 · 391 阅读 · 0 评论 -
NLTK学习笔记(四):自然语言处理的一些算法研究
自然语言处理中算法设计有两大部分:分而治之 和 转化 思想。一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化。前者的例子:归并排序;后者的例子:判断相邻元素是否相同(与排序)。这次总结的自然语言中常用的一些基本算法,算是入个门了。递归使用递归速度上会受影响,但是便于理解算法深层嵌套对象。而一些函数式编程语言会将尾递归优化为迭代。如果要计算n个词有多少种组合方式?...原创 2018-08-13 17:12:46 · 341 阅读 · 0 评论 -
NLTK学习笔记(五):分类和标注词汇
目录词性标注器 标注语料库 表示已经标注的标识符:nltk.tag.str2tuple('word/类型') 读取已经标注的语料库 名词、动词、形容词等 尝试找出每个名词类型中最频繁的名词 探索已经标注的语料库 自动标注 默认标注器 正则表达式标注器 查询标注器 N-gram标注 基础的一元标注器 一般的N-gram标注器 组合标注器 跨...原创 2018-08-13 17:15:05 · 359 阅读 · 0 评论 -
NLTK学习笔记(六):利用机器学习进行文本分类
目录一、监督式分类:建立在训练语料基础上的分类 特征提取器和朴素贝叶斯分类器 过拟合:当特征过多 错误分析 二、实例:文本分类和词性标注 文本分类 词性标注:“决策树”分类器 三、更近一步的连续分类或贪婪序列分类:在朴素贝叶斯和“决策树”之后 四、评估 五、三种分类器的总结 六、后记关于分类文本,有三个问题怎么识别出文本中用于明显分类的特征 怎么构建...原创 2018-08-13 17:19:42 · 626 阅读 · 0 评论 -
NLTK学习笔记(七):文本信息提取
目录实体识别:分块技术 分块语法的构建 树状图 IOB标记 开发和评估分块器 命名实体识别和信息提取如何构建一个系统,用于从非结构化的文本中提取结构化的信息和数据?哪些方法使用这类行为?哪些语料库适合这项工作?是否可以训练和评估模型?信息提取,特别是结构化信息提取,可以类比数据库的记录。对应的关系绑定了对应的数据信息。针对自然语言这类非结构化的数据,为了获取对应关...原创 2018-08-13 17:21:18 · 780 阅读 · 0 评论 -
NLTK学习笔记(八):文法--词关系研究的工具
目录文法 自定义文法 文法用途 开发文法 分析文法的算法 递归下降解析器 移进-归约解析器 基于特征的文法 属性和约束 处理特征结构 包含和统一 总结对于一门语言来说,一句话有无限可能。问题是我们只能通过有限的程序来分析结构和含义。尝试将“语言”理解为:仅仅是所有合乎文法的句子的大集合。在这个思路的基础上,类似于 word -> word ...原创 2018-08-13 17:22:51 · 475 阅读 · 0 评论