2019-02-07修改,完善NLP关键的实际应用场景描述
一、自然语言处理步骤
1.收集数据:文本信息的常见来源包括-商品评价、用户产出的内容(推文、帖子、提问等)、问题解决方案等
2.清洗数据:去除一切不相关的字符-比如任何非数字字母的字符(针对英文);标记文本,并拆分为独立的单词;去除不相关的词语;所有字母转换为小写;将拼错的单词或者多种拼法的单词与某个特定的表达绑定;考虑词形还原
3.找到好的数据表达方式(one-hot representation):例如可以为数据集中的所有单词制作一张词表,将每个单词和一个唯一的索引关联。每个句子都是由一串数字组成(词表中独立单词对应的个数)。通过列表的索引,可以统计出句子中某个单词出现的次数(即词袋模型),完全忽略句子中单词的顺序
4.分类
5.检验
6.解释词语结构:在词袋模型的基础上进行TF-IDF评分
7.利用语义:模型部署之后很有可能遇到在训练集中没有出现过的单词,那么模型可能就无法准确的为这些推文分类。需要获取到词语的语义来解决这个问题(比如:Word2Vec词向量-用来为单词寻找连续嵌入的技术),也就是说我们需要理解“good”和“positive”比“apricot”和“continent”更接近。Word2Vec通过读取大量文本并记忆出现在相似上下文中的单词进行学习,在经过足够的训练后,它会为词表中的每个单词生成生成一个100-300维的向量,具有相似含义的单词会靠的更近
二、NLP关键的实际应用
1.识别不同使用者/用户的客户群(预测用户流失、生命周期价值、产品偏好)
2.精准检测和提取反馈分类(正负面的评论观点、对衣服尺寸或舒适度等一些特别属性的提及)
3.根据意图进行文本分类(请求普通帮助、紧急问题处理)
4.对微博信息进行分析,通过社交舆情看关注点
5.对邮件分析,结合贝叶斯算法判断哪些是垃圾邮件
6.语音识别与生成、文本分析、情感分析、机器翻译