hanlp云服务器分析+pyecharts可视化

hanlp云服务器接口使用和pyecharts词云可视化

这次是我跟一位小伙伴一起做得,现在让我把他艾特出来:maxoyed

本次应用的数据是老人与海的部分数据(old.txt)
领取方式:
公众号:YOLO的学习进阶日常
因为现在网盘现在不太方便了嘛,所以我把我的联系方式放在了我得公众号里面,需要数据的可以直接私聊我

# 请求HanLP云服务接口
import requests
import json
with open("./old.txt",'r', encoding='utf-8') as txt:
    text=txt.read()

hanlp云服务器:http://27.221.81.242:8848/HanLP1.0/dyyfc-crf.html#

如何找到我们想要的接口:
第一步:找到产品中心
在这里插入图片描述
第二步:选择我们想实现的功能,这次我选择是CRF分词
在这里插入图片描述
第三步:把接口和API的写法写成这个样子
在这里插入图片描述
第四步:通过requests和json去解析我们的数据

url = "http://27.221.81.242:3333/HanlpApi?apiKey=030e5ecf943f49bc8e218135ffa511bf"
payload = {'text': text}
response = requests.post(url, data = payload)
res = json.loads(response.text)["data"]
res_list = list(map(lambda item: item["word"], res))
res_list

停用词

停用词处理,停用词的获取方式就是关注公众号然后回复停用词

#停用词
stop_words = []
with open("./cn_stopwords.txt", 'r', encoding='utf-8') as txt:
    stop_words = txt.read().split('\n')

**

词频统计

**

# 词频统计
counter = {}
for word in res_list:
    if len(word) < 2:
        continue
    if word in stop_words:
        continue
    try:
        counter[word] += 1
    except:
        counter[word] = 1
wordcloud_data = list(map(lambda item : (item, counter[item]), counter))
wordcloud_data

pyecharts词云

from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

# 添加词频数据
words = wordcloud_data[:20]

# WordCloud模块,链式调用配置,最终生成html文件
c = (
    WordCloud()
    .add("", words, word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="WordCloud-shape-diamond"))
    .render("wordcloud_diamond.html")
)

在这里插入图片描述

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值