![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言学习笔记
文章平均质量分 97
记录自己学习nlp的过程以及心得
小陈步吃人
生活让你变得窘迫,让你为之穷其一生,但也让你抓住每个机会,好也不好,这就是生活!
展开
-
一起来学自然语言处理----学习分类文本(决策树、朴素贝叶斯)
学习分类文本有监督分类评估决策树朴素贝叶斯分类器最大熵分类器为语言模式建模 模式识别是自然语言处理的一个核心部分。以-ed 结尾的词往往是过去时态动词。频繁使用 will是新闻文本的暗示。这些可观察到的模式——词的结构和词频——恰好与特定方面的含义关联,如:时态和主题。但我们怎么知道从哪里开始寻找,形式的哪一方面关联含义的哪一方面?我们将在这一节进行讲解。有监督分类评估决策树朴素贝叶斯分类器...原创 2022-04-21 21:59:36 · 1579 阅读 · 0 评论 -
一起来学自然语言处理----分类和标注词汇
使用词性标注器标注语料库1. 表示已标注的标识符2. 读取已标注的语料库3. 简化的词性标记集使用字典映射词及其属性1. 默认字典2. 递增的更新字典3. 颠倒字典自动标注1. 默认标注器2.正则表达式标注器3. 查询标注器N-gram标注1. 一元标注(Unigram Tagging)2. 一般的 N-gram 的标注3. 组合标注器4. 存储标注器基于转换的标注如何确定一个词的分类1. 形态学线索2. 句法线索3. 语义线索4. 新词原创 2022-03-31 20:37:20 · 1108 阅读 · 1 评论 -
一起来学自然语言处理----加工原料文本
加工原料文本从网络和硬盘访问文本1.电子书2.处理的HTML3.处理搜索引擎的结果4.读取本地文件5.捕获用户输入6.NLP的流程字符串:最底层的文本处理使用Unicode进行文字处理使用正则表达式检测词组搭配正则表达式的有益应用规范化文本用正则表达式为文本分词分割格式化:从链表到字符串从网络和硬盘访问文本1.电子书2.处理的HTML3.处理搜索引擎的结果4.读取本地文件5.捕获用户输入6.NLP的流程字符串:最底层的文本处理使用Unicode进行文字处理使用正则表达式检测词组搭配正则原创 2022-03-29 18:40:31 · 1321 阅读 · 0 评论 -
一起来学自然语言处理----语料库和词汇资源
1、NLTK工具包2、nltk中的语料库 1.古腾堡语料库 2.网文语料库 3.载入自己的语料库3、nltk中的词典资源4、wordnet字典原创 2022-03-28 18:57:11 · 4787 阅读 · 0 评论 -
一起来学自然语言处理----NLTK数据包加载以及字符串操作
1、安装nltk数据包2、字符串的切分3、标点、大小写、停用词标准化4、替换与矫正5、相似度度量(编辑距离算法、Jaccard系数和Jaccard距离)原创 2022-03-22 21:50:20 · 2486 阅读 · 1 评论