利用pycham实现文章中词频、词云、折线图的使用

最新推荐文章于 2024-09-17 23:15:58 发布

2301_77161708

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量248

点赞数 3

分类专栏：词云词频文章标签： python Powered by 金山文档

本文链接：https://blog.csdn.net/2301_77161708/article/details/129696431

版权

本文档介绍了如何使用PyCharm进行文本处理，包括引入必要的库，自定义停用词，使用jieba进行中文分词，计算词频，生成词云，以及绘制人物出现次数的折线图。主要涉及的技术包括jieba分词、Python的Counter、WordCloud库和matplotlib库。

摘要由CSDN通过智能技术生成

源文本文档

首先需要引入pycham的各种包

import string

import numpy as np

jieba.load_userdict('七龙珠.txt')

def stop_words():

with open('七龙珠.txt', encoding='utf-8') as f:

return [line.strip() for line in f]

# 对句子进行中文分词

def seg_depart(sentence):

# 对文档中的每一行进行中文分词

sentence_depart = jieba.cut(sentence.strip())

# 创建一个停用词列表

stopwords = stop_words()

# 输出结果为outstr

outstr = ' '

# 去停用词

for word in sent

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2301_77161708

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python练习1 以词云图为例的数据可视化

weixin_47808721的博客

09-10

1149

from wordcloud import WordCloud as wc import matplotlib.pyplot as plt text=open('China145.txt','r',encoding='utf-8').read() font=r'c:\Windows\Fonts\simfang.ttf' mywc=wc(font_path=font).generate(text) plt.imshow(mywc) plt.axis('off') plt.show() python词云复.

数据可视化之利用Python制作词云图

热门推荐

小笨聪

05-06

1万+

制作词云图一.词云图介绍二.wordcloud方法二. stylecloud方法一.词云图介绍词云图可以看作是文本数据的视觉表示，由词汇组成类似云的彩色图形。相对其它诸多用来显示数值数据的图表，词云图的独特之处在于，可以展示大量文本数据。文本数据中每个词的重要性以字体大小或颜色显示，因此词云可以很好地表明每个单词在特定文本体中被提及的频率（即词频分布），通过使用不同的颜色和大小来表示不同级别的...

2 条评论您还未登录，请先登录后发表或查看评论

数据统计：词频统计、词表生成、排序及计数、词云图生成

知识库搭建ing

05-09

1211

词频统计、词表生成、排序及计数、词云图生成

python3 词频统计计数分析+可视化词云 jieba+wordcloud 数据分析

Hakcer's Junk

09-01

4035

python3 数据分析中的词频分析，词频统计 小白也能懂。

利用jieba库和wordcloud库，进行中文词频统计并利用词云图进行数据可视化

潆勖的博客

02-25

3461

利用jieba库和wordcloud库，进行中文词频统计并利用词云图进行数据可视化

如何使用python画折线图-Python 使用 matplotlib 画折线图教程

weixin_37988176的博客

11-01

266

话不多说，直接上代码。最近修改一篇论文，实验部分的图全部重画了一下，也正好在此进行整理。使用 Python 的 matplotlib 库来画图还是比较方便的，今天整理一下用 matplotlib 画折线图的方法。一、Python 使用 matplotlib 画折线图# coding:utf-8"""Author: roguesirDate: 2017/8/30GitH...

【实践】如何用python绘制词云图（文本数据可视化）？

HouGOD的博客

03-17

1万+

一、工具介绍文本是语言和沟通的载体，文本的含义以及读者对文本的理解需求均纷繁复杂。例如，对于同一个文本，不同的人的解读也是不一样的，有的人希望了解文本中涉及到的事物，而有的人希望得到文本中的关键词。鉴于对文本信息需求的多样性，需要从不同层级提取与呈现文本信息。一般把对文本的理解需求分成三级：词汇级（Lexical Level）、语法级（Syntactic Level）和语义级（Semantic Level）。不同级的信息挖掘方法也不同，词汇级当然是用各类分词算法，语法级用一些...

Python数据可视化——词云图

m0_51543023的博客

12-08

3601

任务：下载一本txt的电子书，对它分词、词频统计，生成电子书的词云图，作为这本书的概览理解在数据可视化中，词云图是一个比较常用也比较简单的应用。就是将文件输入到程序中，利用中文/英文分词，提取出文本的关键词，根据词频提取每个关键词在这面文章里的重要性权重，在指定的图片中以不重叠的形式显示出来。例如：有一个十九届五中全会公报的文本和一个目标图案，要生成这则公报的词云图。首先需要安装需要用到的包系统里输入cmd 打开命令提示符正常情况下应该是直接安装成功但是我的显然有问题，我也不太懂为啥安

Python可视化——绘制折线图

m0_47396944的博客

07-22

1万+

绘制折线图 plot() （1）准备工作绘制可视化图形，将会使用到Matplotlib库中的pyplot包。 Matplotlib是Python的绘图库，其中的pyplot包封装了很多画图的函数。 Matplotlib.pyplot 包含一系列类似 MATLAB 中绘图函数的相关函数。因此在绘制图形之前，将这个pyplot导进来 #导入pyplot包并取别名为plt import matplotlib.pyplot as plt plot()函数用于绘制折线图 【参数及语法】： plt.plot(

三国人物关系词频分析词云图.zip

02-17

在这个项目中，主要运用了文本处理和数据分析的技术，具体包括从TXT文件中读取文本、分词、数据预处理、词频统计以及词云图的生成。下面将详细解析这一过程中的关键知识点。首先，**文本读取**是整个分析的起点。...

django动态加载数据显示词频词云，使用d3.layout.cloud.js

10-11

在本项目中，我们利用Django框架来实现一个动态加载数据并展示词频词云的Web应用。Django是Python Web开发的一个强大框架，而词云是一种视觉化的数据表示方式，能够有效地展示文本中的高频词汇。这个应用的核心是将...

python使用tkinter库实现自定义的词云图和top10词频统计

12-21

总的来说，这篇博文中讲解了如何结合jieba库进行中文分词和词频统计，以及如何使用Tkinter库构建一个包含词云图和Top10词频统计的桌面应用。通过这个应用，用户可以直观地了解文本数据的主要内容和热点词汇。对于想...

python读取excel某列内容制作词云图并用条形图统计词频

01-20

有的时候我们把数据整理收集整理到excel中，那么要把excel中的某列文本数据制作词云图怎么做呢？从最简单的说起。最简单的词云图就是这种，英文的，不读取文件，不指定背景形状图片，不指定字体。 #复制文本用字符...

Python：使用nltk统计词频并绘制统计图

彭世瑜的博客

07-18

5551

测试环境： mac python3.6.5 安装 pip install nltk 代码示例 # -*- coding: utf-8 -*- from nltk import FreqDist from matplotlib import rcParams # matplotlib 设置中文字体 rcParams["font.family"] = "STHeiti" rcParams["fo...

Tcl lnit error: Can’t find a usable init.tcl in the following directories 问题解决

梦想闹钟

09-15

452

实际研究后发现，其实py2exe已经把打包需要的lib放在dist文件夹下了，但是打包后的程序运行后却没有去lib下找，而是去找系统自带的环境变量里找，所以找不到。这个问题出现在我用py2exe打包了一个包含tkinter的图形化界面，在当前电脑上运行无问题，在移动到新电脑上后提示报错、getcwd用于获取当前工作目录绝对路径，在设置环境的变量的时候它用的是绝对路径-所以也导致了在当前电脑上能用而移动后不能用。解决方法是在你的程序里重新设置下环境变量，而且是用相对路径的形式。

[Python数据可视化]Plotly Express: 地图数据可视化的魅力

最新发布

William数据分析的博客

09-17

418

在数据分析和可视化的世界中，地图数据可视化是一个强大而直观的工具，它可以帮助我们更好地理解和解释地理数据。Python 的 Plotly Express 库提供了一个简单而强大的方式来创建各种地图。本文将通过一个简单的示例，展示如何使用 Plotly Express 来创建一个交互式的地图，并探讨其在地图数据可视化方面的应用。

Python世界：力扣29题两数相除算法实践

来知晓的博客

09-13

424

除法运算本质是减法，从理解原理到真正实现还是有距离，建议初步理解后，不参考任何代码，完全自己复现一遍，体会更深。注意提示：目的就是提醒越界问题：-2^31/-1=2&31，超过了整数表达范围。本问题来自于力扣29题，在做完大数相乘后，顺带也看下两数相除。将两数相除，要求不使用乘法、除法和 mod 运算符。给定两个整数，被除数。

JUC从实战到源码：中断机制与API实现

qq_43843951的博客

09-12

1161

在Java中，线程中断是一种机制，用于通知线程应该停止当前正在执行的任务。中断通常用于协同线程之间的合作，以便让线程在适当的时候终止其工作，尤其是在长时间运行的任务或阻塞操作中。通过学了多线程以及synchronized的相关知识，接下来就到了学习线程中断知识。

python中文词频统计并利用词云图实现数据可视化

06-06

好的，这是一个很好的问题。以下是一些步骤： 1. 下载中文分词工具，如jieba（可以使用pip install jieba进行安装）。 2. 导入需要统计词频的文本文件，读取文件内容并进行分词。可以使用以下代码： ``` python import jieba with open("filename.txt", "r", encoding="utf-8") as f: content = f.read() cut_text = jieba.cut(content) result = " ".join(cut_text) ``` 3. 统计每个词的出现次数，并按照词频从大到小排序。可以使用以下代码： ``` python from collections import Counter c = Counter(result.split()) top_word = c.most_common(100) # 统计前100个词频最高的词 ``` 4. 利用词云图进行数据可视化。可以使用Python的wordcloud库进行生成。可以使用以下代码： ``` python from wordcloud import WordCloud import matplotlib.pyplot as plt wc = WordCloud(font_path="font.ttf", background_color="white", width=1000, height=600, max_words=100, relative_scaling=0.5, collocations=False, normalize_plurals=False).generate_from_frequencies(dict(top_word)) plt.imshow(wc, interpolation="bilinear") plt.axis("off") plt.show() ``` 其中，font_path是字体文件的路径，可以使用本地的中文字体文件，width和height是词云图的大小，max_words是最多显示的词数，relative_scaling是词云图中词的大小比例，collocations和normalize_plurals分别表示是否考虑词组和是否考虑单复数。希望这个简单的代码可以帮到你。