python爬豆瓣小组_【python爬虫】豆瓣小组成员列表信息

最新推荐文章于 2024-03-30 09:50:46 发布

weixin_39804603

最新推荐文章于 2024-03-30 09:50:46 发布

阅读量1.2k

点赞数

文章标签： python爬豆瓣小组

关于我们

作者：python爱好者、自学ing

个人网站：到哪儿找导航欢迎访问！

联系交流：QQ群726693257

背景说明

最近看爬虫教程，讲了豆瓣的爬取，此文作为练习记录。

目标链接：https://www.douban.com/group/EmirKusturica/members?start=35

查看方法：chrome中右键-查看网页源代码

爬取方法：由于目标信息属于存放在html源代码中的静态信息，用scrapy最方便

新建project项目&站点test

新建project和spider

scrapy startproject douban_group

cd douban_group

scrapy genspider douban douban.com

用scrapy shell url进行站点访问测试

scrapy shell https://www.douban.com/group/EmirKusturica/members

报错提示：response 403。表示目标服务器没有正常响应

解决措施：

cd 进入该工程文件夹下

打开工程文档里的settings.py文件

找到DEFAULT_REQUEST_HEADERS，向其中加入Referer、User-Agent两项request参数

代码：

DEFAULT_REQUEST_HEADERS = {

# 'Accept': 'text/html,applicat

最低0.47元/天解锁文章

weixin_39804603

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬豆瓣小组_【python爬虫】豆瓣小组成员列表信息

关于我们作者：python爱好者、自学ing个人网站：到哪儿找导航欢迎访问！联系交流：QQ群726693257背景说明最近看爬虫教程，讲了豆瓣的爬取，此文作为练习记录。目标链接：https://www.douban.com/group/EmirKusturica/members?start=35查看方法：chrome中右键-查看网页源代码爬取方法：由于目标信息属于存放在html源代码中的静态信...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。