自然语言处理步骤与关键实际应用场景

2019-02-07修改,完善NLP关键的实际应用场景描述

一、自然语言处理步骤

1.收集数据:文本信息的常见来源包括-商品评价、用户产出的内容(推文、帖子、提问等)、问题解决方案等

2.清洗数据:去除一切不相关的字符-比如任何非数字字母的字符(针对英文);标记文本,并拆分为独立的单词;去除不相关的词语;所有字母转换为小写;将拼错的单词或者多种拼法的单词与某个特定的表达绑定;考虑词形还原

3.找到好的数据表达方式(one-hot representation):例如可以为数据集中的所有单词制作一张词表,将每个单词和一个唯一的索引关联。每个句子都是由一串数字组成(词表中独立单词对应的个数)。通过列表的索引,可以统计出句子中某个单词出现的次数(即词袋模型),完全忽略句子中单词的顺序

 

4.分类

5.检验

6.解释词语结构:在词袋模型的基础上进行TF-IDF评分

7.利用语义:模型部署之后很有可能遇到在训练集中没有出现过的单词,那么模型可能就无法准确的为这些推文分类。需要获取到词语的语义来解决这个问题(比如:Word2Vec词向量-用来为单词寻找连续嵌入的技术),也就是说我们需要理解“good”和“positive”比“apricot”和“continent”更接近。Word2Vec通过读取大量文本并记忆出现在相似上下文中的单词进行学习,在经过足够的训练后,它会为词表中的每个单词生成生成一个100-300维的向量,具有相似含义的单词会靠的更近

二、NLP关键的实际应用

1.识别不同使用者/用户的客户群(预测用户流失、生命周期价值、产品偏好)

2.精准检测和提取反馈分类(正负面的评论观点、对衣服尺寸或舒适度等一些特别属性的提及)

3.根据意图进行文本分类(请求普通帮助、紧急问题处理)

4.对微博信息进行分析,通过社交舆情看关注点

5.对邮件分析,结合贝叶斯算法判断哪些是垃圾邮件

6.语音识别与生成、文本分析、情感分析、机器翻译

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值