【飞浆paddlepaddle】python—爱奇艺《青春有你2》评论分析、词云制作以及词频可视化---【百度7日打卡训练营day_6】

1. 踩坑记

(补坑再遇坑,希望知道怎么让词云有形状的朋友们,大佬们可以指点指点当然,还有评分分析的时候,一直在运行,但是好久没有结果,懵了。)

1.1.字体乱码

1.命令下载中文字体文件,然后移动到 ".fonts/"文件夹中,正常来说,字体文件存在对于的文件夹中,应该生效才对。不过程序运行出来的柱状图的文字仍然是乱码。

2.本地上传中文字体文件,然后移动到 ".fonts/"文件夹中,仍然解决不了。

3.程序报错说:‘Font-family’ not found. 。于是我去修改字体的配置文件,并且重启环境,仍然不能解决。

最后,我是把整个环境重置为最初的版本,终于,在这里可以正常下载字体文件,不再是403forbidden了。之后,在动字体文件的时候,手动输入的字体文件名,如果该字体文件名有提示,则表示命令可以找到这个文件,所以经过这个过程,同时重启环境之后。终于正常显示中文字体了。

今天先写着最为深刻的一个坑,后续再补代码和坑。
(补坑再遇坑,希望知道怎么让词云有形状的朋友们,大佬们可以指点指点。)

403FORBIDDEN

# 下载中文字体
!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf

--2020-05-03 22:14:32--  https://mydueros.cdn.bcebos.com/font/simhei.ttf
Resolving mydueros.cdn.bcebos.com (mydueros.cdn.bcebos.com)... 182.61.200.229, 182.61.200.195
Connecting to mydueros.cdn.bcebos.com (mydueros.cdn.bcebos.com)|182.61.200.229|:443... connected.
HTTP request sent, awaiting response... 403 Forbidden
2020-05-03 22:14:32 ERROR 403: Forbidden.

参考网络上的一般解决方法是:

!wget -O 'test.zip' URL
!wget -U "你的User-Agent" URL

但是这些方法在paddle提供的环境好像不起作用。

解决方法1:本地上传字体文件

SimHei.ttf中文字体下载【点击这里】01
SimHei.ttf中文字体下载【点击这里】02
下载完成之后,在paddle环境中点击上传文件,选择simhei.ttf文件上传,然后复制文件到 .fonts文件夹中,重启服务,中文字体就可以正常显示了。

# 创建字体目录fonts
 !mkdir .fonts
# 复制字体文件到该路径
 !cp simhei.ttf .fonts/

"""另外一种移动字体文件方法"""
# 将字体文件复制到matplotlib字体路径
!cp simhei.ttf /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/

移动字体文件后可能在系统中仍然找不到可用的中文字体:在这里插入图片描述

解决方法2:重新新建一个项目

这个时候wget是可以正常下载字体文件的,response code = 200 OK;
然后就可以正常执行,创建字体文件夹,复制字体文件到文件夹中。如果此时还是不能正常显示中文,则需要停止项目,然后再启动,就可以解决了。
在这里插入图片描述

1.2.词云问题

在这里插入图片描述

2. 综合大作业:《青春有你2》选手数据分析以及评论分析

2.1.实现步骤

第一步:爱奇艺《青春有你2》评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)

  • 爬取任意一期正片视频下评论
  • 评论条数不少于1000条

第二步:词频统计并可视化展示

  • 数据预处理:清理清洗评论中特殊字符(如:@#¥%、emoji表情符),清洗后结果存储为txt文档
  • 中文分词:添加新增词(如:青你、奥利给、冲鸭),去除停用词(如:哦、因此、不然、也好、但是)
  • 统计top10高频词
  • 可视化展示高频词

第三步:绘制词云

  • 根据词频生成词云
  • 可选项-添加背景图片,根据背景图片轮廓生成词云

第四步:结合PaddleHub,对评论进行内容审核

2.2.需要的配置和准备

  • 中文分词需要jieba
  • 词云绘制需要wordcloud
  • 可视化展示中需要的中文字体
  • 网上公开资源中找一个中文停用词表
  • 根据分词结果自己制作新增词表
  • 准备一张词云背景图(附加项,不做要求,可用hub抠图实现)
  • paddlehub配置

安装“jieba”+“worldcloud”库

# Linux系统默认字体文件路径
!ls /usr/share/fonts/
# 查看系统可用的ttf格式中文字体
!fc-list :lang=zh | grep ".ttf"

[OUT]: cmap  truetype	type1  X11
/home/aistudio/.fonts/simhei.ttf.1: SimHei,黑体:style=Regular,Normal,obyčejné,Standard,Κα
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值