爬虫——requests（Requests爬虫实践：TOP250电影数据）_爬虫——requests(requests爬虫实践:top250电影数据)报告-CSDN博客

本文链接：https://blog.csdn.net/qq_46924416/article/details/113796795

简单的爬取

import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding="utf-8"
r.text

status_code : 响应状态码，若是200 则表示链接成功，返回的是4xx则表示是客户端错误，返回的是5XX则表示服务器错误

补充说明：
在这里插入图片描述
所以呢，普通的网页爬取就是这么个代码，但是要关键字提交或是图片的爬取，归属地的自动查询都是要在reuqests的使用基础上，在添加其他的代码，后面我们会仔细的讲解具体的操作。

传递url参数
为了请求特定的数据，我们需要在url的查询字符中加入某些数据，如果自己构建的url，
那么数据一般会跟在一个问号后面，并以键/值得形式放在url中
如：http://httpbin.org/get?key1=value1

再requests中我们通常把这些参数放在一个字典当中去。用params去构建到url当中

import requests
url="---"
key_w={key1:v1,ke2:v2}
r=request.get(url,params=key_w)
print("url已经正确得编码：",r.url)
print("字符串方式得响应",r.text)

Requests爬虫实践：TOP250电影数据

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'\
          ,'host' : 'movie.douban.com'}
movie_list=list()
for i in range(0,10):#更新start
    link = "http://movie.douban.com/top250?start="+str(i*25)
    r = requests.get(link,headers = headers,timeout = 20)#访问网址
    
    print(r.status_code)#响应状态码
    
    soup = BeautifulSoup(r.text,'lxml')#将响应体转化为soup代码
    div_list = soup.find_all('div',class_ = 'hd')#查找所有div 类型为 hd
    
    for each in div_list:#提取需要的信息添加到Movie_list列表中
        movie = each.a.span.text.strip()
        movie_list.append(movie)
movie_text = ''.join(movie_list)
print(movie_text)