Lesson 4:自然语言处理

主要总结两部分内容:

  • NLP基本流程 和 各环节code
  • 两个NLP案例

一、NLP基本流程


在这里插入图片描述

step1:tokenize

把句子拆分成单词:

在这里插入图片描述





step2:tokenize后的words,可能一个word有很多变种,需要将他们统一为一种形式,具体如下:




step3:在词性归一化中有一个问题,即对于同一个词,如:Went,他可能是go,也可能是人名Went,为了更好地进行词性归一化,我们可以首先对每个词 标注其词性,然后在进行 词性归一化



step4:当我们将一段话 分割为 word 时,其中有很多为无意义的词,如:is,of,等,这些词称为stopwords,在文本分析中,我们应该将这些词去掉






上述列举的几个NLP应用方向,在PPT中有简要介绍一些简单code,详情查看PPT吧。

二、关于NLP的两个kaggle实战

实战1:news_stock:given news,classify which type they belong to

将everyday news用vector表示,组成train_data,然后基于train_data,训练ML algrithm,从而预测news_test belong to which type。
news的一般处理步骤:

  • 对news进行tokenize,词性归一化,去stopwords,最后形成一个word list
  • 将word用如下几种形式表示:Bag of words(词在文档中的数量),TF-IDF,Word2vec;
  • 将news(即:word list),用word表示,本案例中表示为word vector的平均值(太简单),也可以直接表示为word vector matrix。也可以CNN(words)科学计算出news的feature(第6章会讲)。
  • 将得到的feature vector投入到ML中进行训练
  • 思维发散
实战2:文本匹配任务:Home Depot Product Search Relevance

在本案例中,一个突出技巧是,用特征工程的手段,去计算两个文本的匹配度,具体方法如下:

  • 计算两文本TF-IDF,然后求二者的欧氏距离
  • 计算两文本word2vec,然后求二者距离
  • 计算一个文本1中word在另一个文本2中出现的次数,一次估计相似度。(计算出count以后,可以在除以文本1的长度,进行归一化))
  • 使用Levenshtein()函数,计算由文本1转为文本2的步骤,以表示二者相似度。
    实战案例code:
    research_relevant
    research_relevant advance

三、NLP中用到的几个库

库:
NLTK
gensim
jieba
core_nlp

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值