NLP(nature language processing)自然语言处理学习

书籍推荐:

Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems

一:名词认识

   1 Segmentation (分割 )句号 逗号等标点符号 把句子分隔开

   2 Tokenizing (标记化)

   3 Stop words(停用词) 比如was are and in 等类型的词语

   4 Stemming (提取词干)skipped skipping skips   都来自词语skip

   5 Lemmatization (词型还原)are am is 都是be动词

   6 speech tagging (词性)noum名词。vreb 动词。 preposition 介词

   7 Named entity tagging(命名实体标记)

二:language modeling (n-gram  RNN

     作用:预测下一个单词(比如谷歌搜索 输入一些单词以后 会根据下一个单词出现的可能性提示想查找的内容)

     49be59a3adf24fb9bf90688704f88f54.png5a7db61a0acd4192842622442e5a6cf1.png

RNN 模型的优缺点:

e442621d759d4efc81fa8950bccb3ae3.png

原始文本(raw  data) __

分词(segmentation)____

清洗(cleaning)无用的标点符号 特殊符号 停用词

标准化(nomalization)  stemming词干提取  lemmation 词型还原

特征提取(feature extraction)  tf-idf word2vec

建模(modeling) 相似度算法 分类算法

文本预处理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值