主要用这三个网站。
在线分词工具|在线切词:中文切词工具|中文分词工具|中文在线分词
http://www.78901.net/Participle/?ac=done
微词云_在线词频统计分析工具_词云图生成器
https://www.weiciyun.com/fenci/
Edit word art - WordArt.comhttps://wordart.com/create第三个网站是国外的,登陆可能慢一点。
绘制词云,首先得有文本材料。
爬取数据,采用webscraper.
举例说明。制作一个《复仇者联盟4》的影评词云。
从豆瓣爬取。
打开豆瓣,找到复联4
用webscraper 建立一个sitemap。爬取地址中,参数写成start=[0-100:20],如果想爬的多,就把100改大,但不能超过复联4影评总页数*20,我这里只爬取5页。20是步长。
设置selector
第一个selector是页面链接。多选、类型是link
save后,点进去,设置二级页面爬取规则。
save就ok了
然后scrape
爬完之后,下载csv文件。
只需要一列,把comment_of_one复制出来,放到TXT里。
把这个整个的文本,复制到上面这个网站,进行分词。
在线分词工具|在线切词:中文切词工具|中文分词工具|中文在线分词
http://www.78901.net/Participle/?ac=done
这个过程我测试了一下,太多文本的话会报错,需要一部分一部分的复制,这时候就是耐心了。如果文本量很大,就慢慢来吧,毕竟不用python编程。
分词的结果在下面。把这个结果复制出来。
复制到这个网站,进行词频统计。
微词云_在线词频统计分析工具_词云图生成器
https://www.weiciyun.com/fenci/
可以点击下一步。
需要微信登录,那就登录一下呗。
边上有过滤条件,默认只显示名词的词频,我这里把动词也选上。
可以生成报告。
这个网站也是可以直接生成词云的。下面有。
可以点击美化词云,这样就可以自己设置词云的一些现实方式。
形状,字体,等。
这样看来,第三个网站也不需要了。
直接生成了。
但是这个网站也是有文本量的限制,如果文本量大,就需要一部分一部分做,
用这个网站生成报告。下载报告。
这个报告当然也是一部分的报告。
分批做分词,词频统计,最后把所有的词频合并起来,excel里用vlookup应该就可以。
统计好之后,是一个全部的文件,这样就可以用第三个网站。上传到这个词频结果,做出词云图。
这里可以上传词频。只不过这个是国外网站,所以要先上传一个font,找一个中文字体,传上去。后面就可以生成词云了,其他的操作都类似。
第一个网站和第二个都可以直接实现分词。第二个更好,直接得出词频。但是这两个也都不是纯免费的。多了就花钱了。可以不断使用第一个网站,分词,然后第二个统计。第三个作图。这样可以避免花钱。