python中文分词+词频统计

import jieba
from sklearn.feature_extraction.text import CountVectorizer
 
corpus = [
    "我喜欢使用Python编程语言",
    "Python是一种强大的编程语言",
    "Python编程语言被广泛使用"
]
 
# 使用分词进行中文分词
corpus_seg = []
for sentence in corpus:
    seg_list = jieba.cut(sentence)
    corpus_seg.append(" ".join(seg_list))
 
# 使用CountVectorizer进行词频统计
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus_seg)
 
#并输出词汇表和词频矩阵
print(vectorizer.get_feature_names())
print(X.toarray())
 
#['python', '一种', '使用', '编程', '语言', '强大', '广泛', '喜欢', '被']
#[[1 0 1 1 1 0 0 1 0]
# [1 1 0 1 1 1 0 0 0]
# [1 0 0 1 1 0 1 0 1]]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这是一个比较复杂的问题,需要梳理出多个步骤来完成。 1. 爬取京东评论:可以使用 Python 的 requests 库和 BeautifulSoup 库来实现。首先需要通过 requests 库获取目标网页的 HTML 内容,然后使用 BeautifulSoup 库解析 HTML 内容,提取出评论信息。 2. 分词+词频统计:可以使用 Python 的 jieba 库来进行中文分词,将评论分词后,使用 Python 的 collections 库中的 Counter 类来进行词频统计。 3. 词云图展示:可以使用 Python 的 wordcloud 库来生成词云图。在生成词云图之前,需要先将分词后的数据转换成字符串形式,然后根据词频大小来设置词云图中不同词的大小。 下面是一个简单的代码示例,供参考: ``` import requests from bs4 import BeautifulSoup import jieba from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt # 爬取京东评论 url = 'https://item.jd.com/100003235876.html#comment' html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') comments = soup.find_all('div', {'class': 'comment-con'}) # 分词+词频统计 words_list = [] for comment in comments: words = jieba.cut(comment.text) words_list.extend(words) word_count = Counter(words_list) # 词云图展示 wordcloud = WordCloud(width=800, height=800, background_color='white') wordcloud.generate_from_frequencies(frequencies=word_count) plt.figure() plt.imshow(wordcloud, interpolation="bilinear") plt.axis("off") plt.show() ``` 这段代码可以爬取京东商品页面的评论,并生成对应的词云图展示。需要注意的是,这只是一个简单的示例代码,实际应用中需要考虑更多的细节问题,比如异常处理、数据清洗、图形美化等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值