近期爬虫学习体会以及爬豆瓣Top250源码实战
我是在B站https://www.bilibili.com/video/BV12E411A7ZQ?p=25里学习的,至今已经可以手写爬豆瓣Top250代码。
先总结其中遇到的问题,
1.对 import re
import urllib.request,urllib.error #制定URL获取网页数据
import urllib.request
import bs4
from bs4 import BeautifulSoup
import xlwt 这些库的引用,有些是pycharm编译器中本身没有的
要去导入
依照上述步骤完成相应库的导入即可。
2.爬虫异常处理(反爬)
出现408则是超时,这里我们可以设置一个time
,在一定时间没获取信息时,自动退出程序。
出现404访问为空,如果的确有这个网站,很可能是被发现了,咱就是被发现了(头大),这时候头部信息处理很重要
第一行告诉对方浏览器你从哪里来
第二行告诉对方你是什么性质,不要直接告诉它你是pycharm2021…
还有一点是,给编译器自动模拟访问的网址也很重要
我一开始是直接去网站 cv的
https://movie.douban.com/top250 这个就一直出现404
“https://movie.douban.com/top250?start=” 换成这个之后就可以了,