Lesson 4：自然语言处理

Sarah ฅʕ•̫͡•ʔฅ

已于 2022-05-23 23:08:44 修改

阅读量186

点赞数

分类专栏： Course-Kaggle案例实战文章标签：自然语言处理人工智能深度学习

于 2019-03-24 17:48:51 首次发布

本文链接：https://blog.csdn.net/u014765410/article/details/88698753

版权

9 篇文章 1 订阅

订阅专栏

主要总结两部分内容：

在这里插入图片描述

把句子拆分成单词：

在这里插入图片描述

上述列举的几个NLP应用方向，在PPT中有简要介绍一些简单code，详情查看PPT吧。

将everyday news用vector表示，组成train_data，然后基于train_data，训练ML algrithm，从而预测news_test belong to which type。
news的一般处理步骤：

对news进行tokenize，词性归一化，去stopwords，最后形成一个word list
将word用如下几种形式表示：Bag of words(词在文档中的数量)，TF-IDF，Word2vec；
将news(即：word list)，用word表示，本案例中表示为word vector的平均值（太简单），也可以直接表示为word vector matrix。也可以CNN(words)科学计算出news的feature（第6章会讲）。
将得到的feature vector投入到ML中进行训练
思维发散

在本案例中，一个突出技巧是，用特征工程的手段，去计算两个文本的匹配度，具体方法如下：

计算两文本TF-IDF，然后求二者的欧氏距离
计算两文本word2vec，然后求二者距离
计算一个文本1中word在另一个文本2中出现的次数，一次估计相似度。（计算出count以后，可以在除以文本1的长度，进行归一化））
使用Levenshtein()函数，计算由文本1转为文本2的步骤，以表示二者相似度。
实战案例code：
research_relevant
research_relevant advance

库：
NLTK
gensim
jieba
core_nlp

关注