NLP基础

最新推荐文章于 2024-09-05 15:28:00 发布

clayroot

最新推荐文章于 2024-09-05 15:28:00 发布

阅读量81

点赞数

文章标签：自然语言处理学习机器学习

本文链接：https://blog.csdn.net/qq_54876312/article/details/124886714

版权

一 NLP

1 主要范畴

文本朗读
语音合成
中文自动分词
词性标注
句法分析
自然语言生成
文本类
信息检索
信息抽取
文字校对
问答系统
自动摘要
文字蕴含

2 研究难点

单词的边界定义
不规范的输入
词义的消歧
句法的模糊性
语言行为与计划

二 NLP涉及的知识

1 词处理

分词，词性标注，实体识别，词义消歧

2 语句处理

语法分析，语义分析，机器翻译，语音合成

3统计语言模型

N-Gram统计模型
马尔科夫模型（时间和状态）
隐马尔科夫模型

三 NLTK库

Natural Language Toolkit    -----20世纪80年代

1 特点

自带语料库，词性分类库
自带分类，分词
强大的社区支持
还有很多很多的简单版wrapper

2 词性标注的分类

基于规则的词性标注
基于隐马尔科夫模型HMM的词性分类
基于转移的词性标注
基于转移与隐马尔科夫模型相结合的词性标注

3 词性标注的方法

NLTK（英文）
Jieba（中文）

4 分词难点

分词的标准
切分歧义
新词

5 分词算法

基于词典的分词算法
正向最大匹配法左→右
逆向最大匹配法右→左
双向匹配分词左→中←右
全切分路径选择切成往多切
基于统计的分词算法
HMM
隐马尔科夫模型
CRF
条件随机场
深度学习

四 TF-IDF

TF-IDF → 统计文本出现的频率
TF：Term Frequency 衡量一个特任在文档中出现的有多频繁
TF（t）= （t出现在文档中的次数）/（文档中的term总数）
IDF：Inverse Document Frequency 衡量一个term有多重要
IDF（t）=log_e(文档总数/含有t的文档总数)
TF-IDF = TF*IDF

1 作用

提取文本向量的特征

2 使用

scikit-learn
NLTK（优点：快速简单缺点：不够准确）

clayroot

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP基础

一 NLP1 主要范畴文本朗读语音合成中文自动分词词性标注句法分析自然语言生成文本类信息检索信息抽取文字校对问答系统自动摘要文字蕴含2 研究难点单词的边界定义不规范的输入词义的消歧句法的模糊性语言行为与计划二 NLP涉及的知识1 词处理分词，词性标注，实体识别，词义消歧2 语句处理语法分析，语义分析，机器翻译，语音合成3统计语言模型N-Gram统计模型马尔科夫模型（时间和状态）隐马尔科夫模型三 NLTK库Natural
复制链接

扫一扫