抓取 翻页_Power Query 抓取影评内容的测试

国庆节刚过完,《我和我的祖国》、《中国机长》、《攀登者》几部影片深受观众欢迎,豆瓣上好评如潮:

d73c625cb5fd6307dc47594b3234b61c.png

我们想抓取这些影评做一个分析,影评如何获得呢?Power Query

网站分析

网站分析的过程是必要的,通过观察,我们发现这个网页内容的变化与网址中的一个值有关:

e23acd76605796a2f6690f85bf3e1c7f.png

每当按下前页、后页时这个值会发生变化,这就是我们将来要用作翻页参数的值。

尝试抓取

我们翻到中间页,复制网址开始抓取:

b177048942acf9c498608139751c500c.png

这样的页面我们查看了一下,表格内容,并没有我们期望的整个表格的数据:

940305493cc501216b1b4a1ab2b417df.png

先确定,到了Power Query编辑器中,我们再来做调整,用文本格式直接对页面内容进行分析:

133925c40e7c4609211b6958b4449573.png

通过观察,我们发现所有的影评内容都是这个格式:

dc28d3eb9c436a2ab7246a9f7239b495.png

我们用两步来处理:

筛选:筛选包含有

格式代码的行

330ecd9c30c1e4dfcd5f3fdb9354d672.png

提取:提取两个尖括号之间的文本

d80631091b8dbaacea27967777381bd7.png

这样一页的影评就提取出来了。

定义抓取函数

在上面的查询右键创建函数:

52b3dcbde602c5d72a38f874dd3c2a56.png

把参数添加进来,函数就制作好了。

抓取

我们需要一个页码变化的列表,像这样的{0,20,40,...}

试了一下到200基本就不能再往后了,就是要一个0-200,步长20的一个列表。

03c21049194d1b4d57b9698a42896b33.png

= List.Generate(()=>0,each _<=200,each _+20)

方法有很多种了,这个直观一些。

把这个列表转换乘表格,把这一列转成文本格式,然后自定义一列,应用自定义函数,参数就是我们这一列:

f44325d00fff29870d386721f03f3a9d.png

得到一列Table,展开这个表就是我们要的影评:

4f6378dc9a4a5beb94decc98eb129d2a.png

扣个图

da5dd2e469980e8260eeb05894effe49.png

py词云:

9caf83e752d9e3b1a10a1af77728f9fb.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值