爬虫学习笔记(一):requests基础用法之爬取各类主流网站1

最近开始看一些关于网络爬虫的文章,觉得非常有趣,学习python爬虫已经是一种必备的技能。作为初学者,难免会遇到很多坑,把学习过程中遇到的经验分享给大家,让新手们都少走一些弯路。
今天介绍的是requests的基础用法,其功能比urllib更为强大,初学者建议直接学习requests。
基础用法的指南:

http://cn.python-requests.org/zh_CN/latest/

直接看这篇就可以,非常详细。

1. 发送请求

一开始要导入 Requests 模块:

>>> import requests

然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线:

>>> r = requests.get('https://api.github.com/events')

现在,我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息。
Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。例如,你可以这样发送一个 HTTP POST 请求:

>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})

漂亮,对吧?那么其他 HTTP 请求类型:PUT,DELETE,HEAD 以及 OPTIONS 又是如何的呢?都是一样的简单:


>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

上文中推荐的’http://httpbin.org’是一个专门用于测试的网站,大家做练习最好用它,几乎很容易获得各种请求,其次可以爬“http://www.baidu.com”。
但当新手们兴致勃勃的转战其他主流网站的时候,就会遇到一堆阻碍。

2.缺少headers的请求

引用

《5分钟,6行代码教你写爬虫!(python)》 原创a_achengsong 最后发布于2017-03-30 20:52:51
分类专栏: 数据挖掘(python) 文章标签: python 爬虫 数据 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA
版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/csqazwsxedc/article/details/68498842

这篇文章是CSDN一位博主的2017的原创文章,利用requests和xpath的知识,用极短的代码实现了豆瓣电影的爬取。(PS:好像豆瓣确实适合新手爬,xpath的知识可以从很多其他途径学到)大概几个月前,重新使用该代码,得到空表数据,经过检查发现豆瓣会默认屏蔽python爬虫。需要增加headers才能使代码继续运行。
代码如下:

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
response=requests.get(url,headers=headers)
print(response.status_code)
page=requests.Session().get(url,headers=headers) #get网页
tree=html.fromstring(page.text) # 3、解析网页的过程
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
# ---------------------
# 原作者:a_achengsong
# 来源:CSDN

这里注意的是可以使用response.request.headers()获取headers的内容,也可以在chrome的程序员工具下查看,这里不详细介绍了。另外一点,豆瓣默认你添加的headers是正确的就会返回内容,因此你可以使用别人文章中的headers,也可以正常获取内容。
同样的坑也出现在简书和知乎的爬取过程中,如果你直接去爬,无法获取内容,必须增加headers。注意headers内容必须尽量完整,有时候只有’User-Agent’仍然无法正常获取。

import requests
from lxml import html
url='https://www.zhihu.com/explore' #需要爬数据的网址
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
response=requests.get(url,headers=headers)
print(response.status_code)
print(response.request.headers)
page=requests.Session().get(url,headers=headers)
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="ExploreSpecialCard-contentItem"]//a[@class="ExploreSpecialCard-contentTitle"]/text()') #获取需要的数据

今天先写到这儿了。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你好!对于爬取菜谱网站,你可以使用 Pythonrequests 和 BeautifulSoup 库来实现。首先,你需要发送请求获取网页的 HTML 内容,然后使用 BeautifulSoup 解析该内容,提取出你所需的菜谱信息。 以下是一个简单的示例代码,以爬取美食天下网站(www.meishij.net)为例: ```python import requests from bs4 import BeautifulSoup def get_recipe(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 在这里根据网页结构提取菜谱信息 # 例如,获取菜名和食材 recipe_name = soup.find('h1', class_='recipe-title').text.strip() ingredients = soup.find('div', class_='particulars').ul.find_all('li') ingredient_list = [] for ingredient in ingredients: ingredient_list.append(ingredient.text.strip()) # 输出菜谱名称和食材列表 print("菜谱名称:", recipe_name) print("食材列表:", ingredient_list) # 菜谱详情页的URL recipe_url = 'https://www.meishij.net/1' get_recipe(recipe_url) ``` 对于爬取豆瓣 Top250 电影榜单,同样可以使用 requests 和 BeautifulSoup 库来实现。以下是一个简单的示例代码: ```python import requests from bs4 import BeautifulSoup def get_top250(): url = 'https://movie.douban.com/top250' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') movie_list = soup.find('ol', class_='grid_view').find_all('li') for movie in movie_list: # 获取电影排名、名称和评分 rank = movie.find('em').text title = movie.find('span', class_='title').text rating = movie.find('span', class_='rating_num').text # 输出电影信息 print("排名:", rank) print("名称:", title) print("评分:", rating) print() get_top250() ``` 以上代码只是一个简单示例,你可以根据具体的网页结构和需求进行相应的修改和扩展。希望能对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值