近期爬虫学习体会以及爬豆瓣Top250源码实战

近期爬虫学习体会以及爬豆瓣Top250源码实战

我是在B站https://www.bilibili.com/video/BV12E411A7ZQ?p=25里学习的,至今已经可以手写爬豆瓣Top250代码。
先总结其中遇到的问题,
1.对 import re
import urllib.request,urllib.error #制定URL获取网页数据
import urllib.request
import bs4
from bs4 import BeautifulSoup
import xlwt 这些库的引用,有些是pycharm编译器中本身没有的
要去导入
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
依照上述步骤完成相应库的导入即可。

2.爬虫异常处理(反爬)
出现408则是超时,这里我们可以设置一个time
,在一定时间没获取信息时,自动退出程序。
出现404访问为空,如果的确有这个网站,很可能是被发现了,咱就是被发现了(头大),这时候头部信息处理很重要
在这里插入图片描述
第一行告诉对方浏览器你从哪里来
第二行告诉对方你是什么性质,不要直接告诉它你是pycharm2021…

还有一点是,给编译器自动模拟访问的网址也很重要
我一开始是直接去网站 cv的
https://movie.douban.com/top250 这个就一直出现404
“https://movie.douban.com/top250?start=” 换成这个之后就可以了,

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值