爬取笔趣阁小说网站上的所有小说(一)
网址为:https://www.biqukan.cc/topallvisit/1.html
反反爬虫
爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是有的,但是想这种网站的话,一般不会太厉害,所以只要价格请求头就好了。
user_agent = r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
head = {
'User-Agnet': user_agent, }
分析网址
打开网址的调试模式,第一章方法:按F12打开调试模式,然后点击调试窗口左上角的鼠标按钮,选择一个元素(小说)就可以看到对用的内容了;第二周方法,也可以在一个小说上点击右键,选择检查(Chrome浏览器)或审查(Firefox浏览器),就可以得到以下内容:
通过观察我们可以发现,对应打开的小说的源代码,上下对比可以考到每个小说的所有内容都在一个div里面,所以我们只需获得这些div就可以得到网址了;
# 获得网页源码
html = requests.get(url=first_url,headers=head)
# 把我们使用的编码改成和网站相同的编码
html.encoding = html.appare