NLP基础

一 NLP

1 主要范畴

  • 文本朗读
  • 语音合成
  • 中文自动分词
  • 词性标注
  • 句法分析
  • 自然语言生成
  • 文本类
  • 信息检索
  • 信息抽取
  • 文字校对
  • 问答系统
  • 自动摘要
  • 文字蕴含

2 研究难点

  • 单词的边界定义
  • 不规范的输入
  • 词义的消歧
  • 句法的模糊性
  • 语言行为与计划

二 NLP涉及的知识

1 词处理

  • 分词,词性标注,实体识别,词义消歧

2 语句处理

  • 语法分析,语义分析,机器翻译,语音合成

3统计语言模型

  • N-Gram统计模型
  • 马尔科夫模型 (时间和状态)
  • 隐马尔科夫模型

三 NLTK库

Natural Language Toolkit    -----20世纪80年代

1 特点

自带语料库,词性分类库
自带分类,分词
强大的社区支持
还有很多很多的简单版wrapper

2 词性标注的分类

  • 基于规则的词性标注
  • 基于隐马尔科夫模型HMM的词性分类
  • 基于转移的词性标注
  • 基于转移与隐马尔科夫模型相结合的词性标注

3 词性标注的方法

  • NLTK(英文)
  • Jieba(中文)

4 分词难点

  • 分词的标准
  • 切分歧义
  • 新词

5 分词算法

  • 基于词典的分词算法
  • 正向最大匹配法 左→右
  • 逆向最大匹配法 右→左
  • 双向匹配分词 左→中←右
  • 全切分路径选择 切成往多切
  • 基于统计的分词算法
  • HMM
  • 隐马尔科夫模型
  • CRF
  • 条件随机场
  • 深度学习

四 TF-IDF

TF-IDF → 统计文本出现的频率
TF:Term Frequency 衡量一个特任在文档中出现的有多频繁
TF(t)= (t出现在文档中的次数)/(文档中的term总数)
IDF:Inverse Document Frequency 衡量一个term有多重要
IDF(t)=log_e(文档总数/含有t的文档总数)
TF-IDF = TF*IDF

1 作用

  • 提取文本向量的特征

2 使用

  • scikit-learn
  • NLTK(优点:快速简单 缺点:不够准确)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值