随着时代的发展,我们很依赖网络帮助我们解决问题,遇到什么问题就会先百度。除了百度,现在大多数人还会选择通过知乎来解决问题。知乎类似于一个论坛,讨论度比百度高一些,那你知道如何用python爬虫爬知乎网站吗?其实如果直接爬取很容报错,我们可以通过浏览器伪装爬取。
1、python爬虫工作原理
python爬虫通过URL管理器,判断是否有待爬URL,如果有待爬URL,通过调度器进行传递给下载器,下载URL内容,并通过调度器传送给解析器,解析URL内容,并将价值数据和新URL列表通过调度器传递给应用程序,并输出价值信息的过程。
2、python爬虫基本流程
获取网页 → 解析网页 → 存储数据
3、通过浏览器伪装爬取代码import requests
headers = {'User-Agent': 'Mozilla/5.0
(Windows NT 6.1; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko)
Chrome/58.0.3029.110 Safari/537.36'}
url = 'http://www.zhihu.com/'
res = requests.get(url,headers=headers).text
print(res)
以上就是关于python爬虫的简单介绍以及用浏览器伪装爬取知乎的简单代码实现,希望能帮到你哦~更多python爬虫知识:python爬虫教程。