自然语言处理
catEyesL
渣硕在读,数据挖掘NLP爱好者గ .̫ గ
数据挖掘比赛入门选手,目前5次狗进top10
展开
-
中文自然语言处理,繁体转简体(下载langconv)
很方便的方法,可以下载这两个文件:https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.pyhttps://github.com/skydark/nstools/blob/master/zhtools/langconv.py使用方法也很简单from langconv import *text = '随着疫情防控进入常态化,多地高校及中小学陆续迎来返校复课。'# 转繁体text = Converter('zh原创 2020-05-12 14:58:40 · 2641 阅读 · 0 评论 -
Gensim:TF-IDF
调用gensim库对训练集文本得到文本的TF-IDF表示# 将文档转换成词典和词库def CorpusAndDic(texts): # 词典 dictionary = gensim.corpora.Dictionary(texts) # 词库,以(词,词频方式存储) corpus = [dictionary.doc2bow(text) for text in...原创 2020-02-28 10:08:42 · 1428 阅读 · 0 评论 -
Gensim:word2vec(jieba分词,去停用词)
计算词向量gensim计算词向量需要执行三个步骤model=gensim.models.Word2Vec()#建立模型对象model.build_vocab(sentences) #遍历语料库建立词典model.train(sentences) #建立模型也可以直接调用gensim.models.Word2Vec()其参数:sg默认等于0,为CBOW算法,设置为1是Sk...原创 2020-02-26 12:30:02 · 4075 阅读 · 6 评论 -
jieba:关键词抽取(TD-IDF、TextRank)
目录TF-IDF关键词抽取TextRank关键词抽取jieba实现了两种关键词抽取算法,分别是TF-IDF和TextRank。TF-IDF关键词抽取TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。实际应用中主要是将TF(词频,词t在文档d中出现的频率)* IDF(逆文档率,...原创 2020-02-25 11:48:12 · 2525 阅读 · 0 评论 -
jieba:利用jieba分词
三种分词模式jieba提供了三种分词模式,分别是全模式,精确模式和搜索引擎模式。全模式下会将所有可能的词语都进行分词,精确模式下会尽可能的将句子精确切开,搜索引擎模式实在精确模式的基础上,对长词再进行划分,提高分词的召回率。使用cut和cut_for_search即可实现这三种分词模式jieba.cut 方法接受三个输入参数:需要分词的字符串,cut_all参数用来控制是否采用全模式,...原创 2020-02-25 11:12:52 · 701 阅读 · 0 评论