不用python编程,制作词云图

本文介绍了如何使用三个在线工具进行文本处理,包括从豆瓣爬取《复仇者联盟4》影评,使用在线分词工具进行分词,通过词频统计分析工具生成词云图。虽然这些工具对文本量有限制,但通过分批处理,仍能完成大规模文本的词云制作。微词云提供了直接的词频统计和词云生成功能,而Editwordart则用于词云的进一步定制。需要注意的是,部分功能可能需要付费才能解锁。
摘要由CSDN通过智能技术生成

主要用这三个网站。

在线分词工具|在线切词:中文切词工具|中文分词工具|中文在线分词
http://www.78901.net/Participle/?ac=done

微词云_在线词频统计分析工具_词云图生成器
https://www.weiciyun.com/fenci/

Edit word art - WordArt.comhttps://wordart.com/create第三个网站是国外的,登陆可能慢一点。

绘制词云,首先得有文本材料。

爬取数据,采用webscraper.

举例说明。制作一个《复仇者联盟4》的影评词云。

从豆瓣爬取。

打开豆瓣,找到复联4

 

用webscraper 建立一个sitemap。爬取地址中,参数写成start=[0-100:20],如果想爬的多,就把100改大,但不能超过复联4影评总页数*20,我这里只爬取5页。20是步长。

设置selector

 

第一个selector是页面链接。多选、类型是link

save后,点进去,设置二级页面爬取规则。

 

 

 save就ok了

然后scrape

爬完之后,下载csv文件。

 

 只需要一列,把comment_of_one复制出来,放到TXT里。

把这个整个的文本,复制到上面这个网站,进行分词。

在线分词工具|在线切词:中文切词工具|中文分词工具|中文在线分词
http://www.78901.net/Participle/?ac=done

 

这个过程我测试了一下,太多文本的话会报错,需要一部分一部分的复制,这时候就是耐心了。如果文本量很大,就慢慢来吧,毕竟不用python编程。

分词的结果在下面。把这个结果复制出来。

 

 

 复制到这个网站,进行词频统计。

微词云_在线词频统计分析工具_词云图生成器
https://www.weiciyun.com/fenci/

 

 

可以点击下一步。

需要微信登录,那就登录一下呗。

 边上有过滤条件,默认只显示名词的词频,我这里把动词也选上。

 可以生成报告。

这个网站也是可以直接生成词云的。下面有。

 

可以点击美化词云,这样就可以自己设置词云的一些现实方式。

 

 形状,字体,等。

 

这样看来,第三个网站也不需要了。

直接生成了。

但是这个网站也是有文本量的限制,如果文本量大,就需要一部分一部分做,

 

用这个网站生成报告。下载报告。

 

这个报告当然也是一部分的报告。

分批做分词,词频统计,最后把所有的词频合并起来,excel里用vlookup应该就可以。

统计好之后,是一个全部的文件,这样就可以用第三个网站。上传到这个词频结果,做出词云图。

 

 这里可以上传词频。只不过这个是国外网站,所以要先上传一个font,找一个中文字体,传上去。后面就可以生成词云了,其他的操作都类似。

 

第一个网站和第二个都可以直接实现分词。第二个更好,直接得出词频。但是这两个也都不是纯免费的。多了就花钱了。可以不断使用第一个网站,分词,然后第二个统计。第三个作图。这样可以避免花钱。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值