自然语言处理步骤与关键实际应用场景

最新推荐文章于 2024-06-01 12:37:25 发布

风风雨雨中寻觅

最新推荐文章于 2024-06-01 12:37:25 发布

阅读量2.9k

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理流程 NLP的应用场景

自然语言处理专栏收录该内容

16 篇文章 1 订阅

订阅专栏

2019-02-07修改，完善NLP关键的实际应用场景描述

一、自然语言处理步骤

1.收集数据：文本信息的常见来源包括-商品评价、用户产出的内容(推文、帖子、提问等)、问题解决方案等

2.清洗数据：去除一切不相关的字符-比如任何非数字字母的字符(针对英文)；标记文本，并拆分为独立的单词；去除不相关的词语；所有字母转换为小写；将拼错的单词或者多种拼法的单词与某个特定的表达绑定；考虑词形还原

3.找到好的数据表达方式(one-hot representation)：例如可以为数据集中的所有单词制作一张词表，将每个单词和一个唯一的索引关联。每个句子都是由一串数字组成(词表中独立单词对应的个数)。通过列表的索引，可以统计出句子中某个单词出现的次数(即词袋模型)，完全忽略句子中单词的顺序

4.分类

5.检验

6.解释词语结构：在词袋模型的基础上进行TF-IDF评分

7.利用语义：模型部署之后很有可能遇到在训练集中没有出现过的单词，那么模型可能就无法准确的为这些推文分类。需要获取到词语的语义来解决这个问题(比如：Word2Vec词向量-用来为单词寻找连续嵌入的技术)，也就是说我们需要理解“good”和“positive”比“apricot”和“continent”更接近。Word2Vec通过读取大量文本并记忆出现在相似上下文中的单词进行学习，在经过足够的训练后，它会为词表中的每个单词生成生成一个100-300维的向量，具有相似含义的单词会靠的更近

二、NLP关键的实际应用

1.识别不同使用者/用户的客户群(预测用户流失、生命周期价值、产品偏好)

2.精准检测和提取反馈分类(正负面的评论观点、对衣服尺寸或舒适度等一些特别属性的提及)

3.根据意图进行文本分类(请求普通帮助、紧急问题处理)

4.对微博信息进行分析，通过社交舆情看关注点

5.对邮件分析，结合贝叶斯算法判断哪些是垃圾邮件

6.语音识别与生成、文本分析、情感分析、机器翻译

风风雨雨中寻觅

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。