jieba分词

最新推荐文章于 2022-04-19 14:12:28 发布

data_bigbing

最新推荐文章于 2022-04-19 14:12:28 发布

阅读量150

点赞数

本文链接：https://blog.csdn.net/qq_41795577/article/details/103357458

版权

找个射雕英雄传的其中一个片段来做个实验

import jieba
import jieba.analyse
import re
import pkuseg
doc = '''钱塘江浩浩江水，日日夜夜无穷无休的从两浙西路临安府牛家村边绕过，东流入海。江畔一排数十株乌柏树，叶子似火烧般红，正是八月天时。村前村后的野草刚起始变黄，一抹斜阳映照之下，更增了几分萧索。两株大松树下围着一堆村民，男男女女和十几个小孩，正自聚精会神的听着一个瘦削的老者说话。
　　那说话人五十来岁年纪，一件青布长袍早洗得褪成了蓝灰带白。只听他两片梨花木板碰了几下，左手中竹棒在一面小羯鼓上敲起得得连声。唱道：“小桃无主自开花，烟草茫茫带晚鸦。
　　几处败垣围故井，向来一一是人家。'''
jieba.analyse.extract_tags(doc)

在这里插入图片描述
分词结果也还好对吧，看一下每个词的权重

jieba.analyse.extract_tags(doc,withWeight=True)#返回权重值

在这里插入图片描述

from sklearn.feature_extraction.text import TfidfTransformer
import pandas as pd
f=pd.read_csv(r'射雕_chapter.csv',engine='python',encoding = 'utf-8',index_col = 0)
f.head()
#去停用词
with open(r"D:\bigtwo\bigthere\停用词2.txt",encoding='utf-8') as f2:
    stopword_list = f2.readlines()
    stopword_list = list(map(lambda x: re.sub(r'\n', ' ',x), stopword_list))

new = list(map(lambda x: re.sub(r'[^\u4e00-\u9fa5]', ' ',x), f['txt']))  #去标点 
seg=pkuseg.pkuseg()
word_list = [word for word in seg.cut(''.join(new)) if word not in stopword_list]

在这里插入图片描述

data_bigbing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba分词

找个射雕英雄传的其中一个片段来做个实验import jiebaimport jieba.analyseimport reimport pkusegdoc = '''钱塘江浩浩江水，日日夜夜无穷无休的从两浙西路临安府牛家村边绕过，东流入海。江畔一排数十株乌柏树，叶子似火烧般红，正是八月天时。村前村后的野草刚起始变黄，一抹斜阳映照之下，更增了几分萧索。两株大松树下围着一堆村民，男男女女和十几...
复制链接

扫一扫