爬虫——requests(Requests爬虫实践:TOP250电影数据)

简单的爬取

import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding="utf-8"
r.text

status_code : 响应状态码,若是200 则表示链接成功,返回的是4xx则表示是客户端错误,返回的是5XX则表示服务器错误

补充说明:
在这里插入图片描述
所以呢,普通 的网页爬取 就是这么个代码 ,但是要关键字提交或是图片的爬取,归属地的自动查询都是要在reuqests的使用基础上,在添加其他的代码,后面我们会仔细的讲解具体的操作。

传递url参数
为了请求特定的数据,我们需要在url的查询字符中加入某些数据,如果自己构建的url,
那么数据一般会跟在一个问号后面,并以键/值得形式放在url中
如:http://httpbin.org/get?key1=value1

再requests中我们通常把这些参数放在一个字典当中去。用params去构建到url当中

import requests
url="---"
key_w={key1:v1,ke2:v2}
r=request.get(url,params=key_w)
print("url已经正确得编码:",r.url)
print("字符串方式得响应",r.text)

Requests爬虫实践:TOP250电影数据

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'\
          ,'host' : 'movie.douban.com'}
movie_list=list()
for i in range(0,10):#更新start
    link = "http://movie.douban.com/top250?start="+str(i*25)
    r = requests.get(link,headers = headers,timeout = 20)#访问网址
    
    print(r.status_code)#响应状态码
    
    soup = BeautifulSoup(r.text,'lxml')#将响应体转化为soup代码
    div_list = soup.find_all('div',class_ = 'hd')#查找所有div 类型为 hd
    
    for each in div_list:#提取需要的信息添加到Movie_list列表中
        movie = each.a.span.text.strip()
        movie_list.append(movie)
movie_text = ''.join(movie_list)
print(movie_text)


在这里提前使用了beautifulsoup 是网页解析的一种,,后面我们也会依次讲解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值