创新实训(6)-博客园首页爬虫(二)

最新推荐文章于 2023-03-04 17:19:12 发布

ttxs69

最新推荐文章于 2023-03-04 17:19:12 发布

阅读量119

点赞数

分类专栏：创新实训文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34842847/article/details/106918212

版权

创新实训(6)-博客园首页爬虫(二)

接着分析博客园的文章。

2.6 博文标签获取

标签获取就比较麻烦了，一开始我还是和之前一样，直接F12，去找对应的html，但是执行之后发现出错了，找不到。于是我去response里搜索了一下，果然没有。

猜测可以是使用ajax另外获取的，于是再次搜索，发现了另外一个请求：

查看该请求：

博客标签03

发现是个GET请求，URL的规律是

https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + blogId(416394) + &postId= postId(13180589)

现在只要找到 blogId 和 postId 就可以请求到博客对应的标签了。

到博文的response里再次搜索，

博客标签04

发现了blogId和postId,下面只需要获取到这两个值，然后构造URL发送请求即可得到博文标签了。

这里使用正则表达式提取blogId和postId:

# blogid ，用于获取分类和tag
blogid = response.xpath('//script').re(r'cb_blogId = (\d[0-9])')[0]
# postId
postid = response.xpath

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
创新实训(6)-博客园首页爬虫(二)

创新实训(6)-博客园首页爬虫(二)接着分析博客园的文章。2.6 博文标签获取标签获取就比较麻烦了，一开始我还是和之前一样，直接F12，去找对应的html，但是执行之后发现出错了，找不到。于是我去response里搜索了一下，果然没有。猜测可以是使用ajax另外获取的，于是再次搜索，发现了另外一个请求：查看该请求：发现是个GET请求，URL的规律是https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + b
复制链接

扫一扫

专栏目录

ttxs69 CSDN认证博客专家 CSDN认证企业博客

码龄8年

14: 原创

19万+: 周排名

152万+: 总排名

1万+: 访问

: 等级

277: 积分

13: 粉丝

8: 获赞

14: 评论

68: 收藏

私信

关注

热门文章

分类专栏

创新实训 12篇
随笔 1篇
数据结构 1篇

最新评论

创新实训(12)-生成式文本摘要之T5
Lance H: 你好, main的40行那,先reset_index(drop=True)再在df里drop, val和train不就重合了么, 这val不就成了df的最后20%
创新实训(12)-生成式文本摘要之T5
m0_53944679: 你好，请问 './data/news_summary.csv'是什么文件？
创新实训(12)-生成式文本摘要之T5
_Jing_: 作者您好，train函数里为什么要对labels进行这样的处理，也就是把它的第一个token截掉了，如能回答，万分感谢
创新实训(10)-提取式文本摘要之bert聚类
会唱歌的猪233: 兄弟可能有点晚了，但我刚刚试了要把每句话改成。结尾
创新实训(12)-生成式文本摘要之T5
ttxs69: https://github.com/huggingface/transformers 可以参考这里

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。