爬虫学习笔记（一）：requests基础用法之爬取各类主流网站1

最新推荐文章于 2022-09-25 22:26:54 发布

咚宝学编程

最新推荐文章于 2022-09-25 22:26:54 发布

阅读量344

点赞数

分类专栏：爬虫学习笔记文章标签： python

本文链接：https://blog.csdn.net/knight0113/article/details/103932009

版权

爬虫学习笔记专栏收录该内容

7 篇文章 5 订阅

订阅专栏

最近开始看一些关于网络爬虫的文章，觉得非常有趣，学习python爬虫已经是一种必备的技能。作为初学者，难免会遇到很多坑，把学习过程中遇到的经验分享给大家，让新手们都少走一些弯路。
今天介绍的是requests的基础用法，其功能比urllib更为强大，初学者建议直接学习requests。
基础用法的指南：

http://cn.python-requests.org/zh_CN/latest/

直接看这篇就可以，非常详细。

1. 发送请求

一开始要导入 Requests 模块：

>>> import requests

然后，尝试获取某个网页。本例子中，我们来获取 Github 的公共时间线：

>>> r = requests.get('https://api.github.com/events')

现在，我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息。
Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。例如，你可以这样发送一个 HTTP POST 请求：

>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})

漂亮，对吧？那么其他 HTTP 请求类型：PUT，DELETE，HEAD 以及 OPTIONS 又是如何的呢？都是一样的简单：


>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

上文中推荐的’http://httpbin.org’是一个专门用于测试的网站，大家做练习最好用它，几乎很容易获得各种请求，其次可以爬“http://www.baidu.com”。
但当新手们兴致勃勃的转战其他主流网站的时候，就会遇到一堆阻碍。

2.缺少headers的请求

引用

《5分钟，6行代码教你写爬虫！（python）》原创a_achengsong 最后发布于2017-03-30 20:52:51
分类专栏：数据挖掘(python) 文章标签： python 爬虫数据版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA
版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/csqazwsxedc/article/details/68498842

这篇文章是CSDN一位博主的2017的原创文章，利用requests和xpath的知识，用极短的代码实现了豆瓣电影的爬取。（PS:好像豆瓣确实适合新手爬，xpath的知识可以从很多其他途径学到）大概几个月前，重新使用该代码，得到空表数据，经过检查发现豆瓣会默认屏蔽python爬虫。需要增加headers才能使代码继续运行。
代码如下：

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
response=requests.get(url,headers=headers)
print(response.status_code)
page=requests.Session().get(url,headers=headers) #get网页
tree=html.fromstring(page.text) # 3、解析网页的过程
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
# ---------------------
# 原作者：a_achengsong
# 来源：CSDN

这里注意的是可以使用response.request.headers()获取headers的内容，也可以在chrome的程序员工具下查看，这里不详细介绍了。另外一点，豆瓣默认你添加的headers是正确的就会返回内容，因此你可以使用别人文章中的headers，也可以正常获取内容。
同样的坑也出现在简书和知乎的爬取过程中，如果你直接去爬，无法获取内容，必须增加headers。注意headers内容必须尽量完整，有时候只有’User-Agent’仍然无法正常获取。

import requests
from lxml import html
url='https://www.zhihu.com/explore' #需要爬数据的网址
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
response=requests.get(url,headers=headers)
print(response.status_code)
print(response.request.headers)
page=requests.Session().get(url,headers=headers)
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="ExploreSpecialCard-contentItem"]//a[@class="ExploreSpecialCard-contentTitle"]/text()') #获取需要的数据