1、安装
一般直接
pip install 库名
即可进行第三方库安装
pip install 库名
切换安装源可避免超时问题
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名
2、jieba简介
jieba是基于python的中文分词工具,支持 3 种分词模式:精确模式、全模式、搜索引擎模式;
1)精确模式:将句子最精确的分开,适合文本分析(无冗余)
2)全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)
3)搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)
cut_all参数默认为False,所有使用cut方法时默认为精确模式
3、jieba分词
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者均返回一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语,或
使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
import jieba
sentence = """得不到的永远在骚动
被偏爱的都有恃无恐"""
seg_list1 = jieba.cut(sentence, cut_all=False)
print("【精确模式】" + "/".join(seg_list1))
print(type(seg_list1))
seg_list2 = jieba.cut(sentence, cut_all=True)
print("【全模式】" + "/".join(seg_list2))
print(type(seg_list2))
seg_list3 = jieba.cut_for_search(sentence)
print("【搜索引擎模式】" + "/".join(seg_list3))
print(type(seg_list3))
seg_list4 = jieba.lcut(sentence, cut_all=False)
print("【精确模式】:{0} ".format(seg_list4))
print(type(seg_list4))
seg_list5 = jieba.lcut_for_search(sentence)
print("【搜索引擎模式】:{0}".format(seg_list5))
print(type(seg_list5))
结果:
4、载入字典
jieba.load_userdict(file_name) # 载入自定义词典,,其中file_name 为文件类对象或自定义词典的路径。
jieba.add_word(word, freq=None, tag=None) # 在程序中动态修改词典
jieba.del_word(word)
jieba.suggest_freq(segment, tune=True) # 调节单个词语的词频,使其能/不能被分词开
5、关键词抽取
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False)
#sentence 为待提取的文本
# topK 表示返回最大权重关键词的个数,None表示全部
# withWeight表示是否返回权重,是的话返回(word,weight)的list
# allowPOS仅包括指定词性的词,默认为空即不筛选。
jieba.analyse.textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False)
# 与TF-IDF方法相似,但是注意allowPOS有默认值,即会默认过滤某些词性。
jieba.tokenize(test_sent) Tokenize:返回词语在原文的起始位置