jieba分词

找个射雕英雄传的其中一个片段来做个实验

import jieba
import jieba.analyse
import re
import pkuseg
doc = '''钱塘江浩浩江水,日日夜夜无穷无休的从两浙西路临安府牛家村边绕过,东流入海。江畔一排数十株乌柏树,叶子似火烧般红,正是八月天时。村前村后的野草刚起始变黄,一抹斜阳映照之下,更增了几分萧索。两株大松树下围着一堆村民,男男女女和十几个小孩,正自聚精会神的听着一个瘦削的老者说话。
  那说话人五十来岁年纪,一件青布长袍早洗得褪成了蓝灰带白。只听他两片梨花木板碰了几下,左手中竹棒在一面小羯鼓上敲起得得连声。唱道:“小桃无主自开花,烟草茫茫带晚鸦。
  几处败垣围故井,向来一一是人家。'''
jieba.analyse.extract_tags(doc)

在这里插入图片描述
分词结果也还好对吧,看一下每个词的权重

jieba.analyse.extract_tags(doc,withWeight=True)#返回权重值

在这里插入图片描述

from sklearn.feature_extraction.text import TfidfTransformer
import pandas as pd
f=pd.read_csv(r'射雕_chapter.csv',engine='python',encoding = 'utf-8',index_col = 0)
f.head()
#去停用词
with open(r"D:\bigtwo\bigthere\停用词2.txt",encoding='utf-8') as f2:
    stopword_list = f2.readlines()
    stopword_list = list(map(lambda x: re.sub(r'\n', ' ',x), stopword_list))

new = list(map(lambda x: re.sub(r'[^\u4e00-\u9fa5]', ' ',x), f['txt']))  #去标点 
seg=pkuseg.pkuseg()
word_list = [word for word in seg.cut(''.join(new)) if word not in stopword_list]

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值