创新实训(6)-博客园首页爬虫(二)

创新实训(6)-博客园首页爬虫(二)

接着分析博客园的文章。

2.6 博文标签获取

标签获取就比较麻烦了,一开始我还是和之前一样,直接F12,去找对应的html,但是执行之后发现出错了,找不到。于是我去response里搜索了一下,果然没有。

NtsL2d.png

猜测可以是使用ajax另外获取的,于是再次搜索,发现了另外一个请求:

NtyuIU.png

查看该请求:

博客标签03

发现是个GET请求,URL的规律是

https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + blogId(416394) + &postId= postId(13180589)

现在只要找到 blogIdpostId 就可以请求到博客对应的标签了。

到博文的response里再次搜索,

博客标签04

发现了blogId和postId,下面只需要获取到这两个值,然后构造URL发送请求即可得到博文标签了。

这里使用正则表达式提取blogId和postId:

# blogid ,用于获取分类和tag
blogid = response.xpath('//script').re(r'cb_blogId = (\d[0-9])')[0]
# postId
postid = response.xpath
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值