nlp任务记录(章一)

目录

一、python基础

(1)文件读取和保存

 (2)处理原始文本(字符串操作 和 正则表达式)​编辑

二、文本处理

(1)预处理流程

(2).停用词表(下载链接)GitHub - goto456/stopwords: 中文常用停用词表(哈工大停用词表、百度停用词表等)

 (3)分词软件jieba的使用

1.分词

2.加词

 3.关键词提取

(4)gensim软件使用

1.计算词向量

2.计算词语相似度

3.(计算)TF-IDF(关键词?稀有程度?-->某词在某篇文章中的关键程度) 


一、python基础

(1)文件读取和保存

 (2)处理原始文本(字符串操作 和 正则表达式)

       

 

二、文本处理

(1)预处理流程

(2).停用词表(下载链接)GitHub - goto456/stopwords: 中文常用停用词表(哈工大停用词表、百度停用词表等)

 (3)分词软件jieba的使用

1.分词(返回list)

cut_all:ture全面 、false精准

2.加词

若有特殊词汇,可以通过添加自定义词典 

 3.关键词提取

TF-IDF

 

 TEXTRANK

 

(4)gensim软件使用

1.计算词向量

word2vec计算词向量,先把分好词的文本合在一起,然后传入word2vec中,他会计算每个词在文本空间中的向量表示,这些向量可以通过欧氏距离/余弦距离等来反映各词之间的相似性。(注意这些相似性与相关性是局部的)

 上下文词长度就是窗口长度

 

 

2.计算词语相似度

  

3.(计算)TF-IDF(关键词?稀有程度?-->某词在某篇文章中的关键程度) 

TF:a词在文章A中出现的频率

DF:a词在语料库/BCDE...文章中出现的频率

IDF:DF的倒数

TF-IDF = TF * IDF:所以若某个词在某篇文章的TF-IDF高,即该词在该篇文章中出现频率多,在语料库/其他文章中出现频率少,这个词在这篇文章里就越关键

分词后,将分词结果转换成词典和词库

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值