爬虫实例1-爬取豆瓣top250电影名

1.在请求头headers里查看 user-agent 和host

response=requests.get(url)

response.status_code  响应状态吗,200代表请求成功,4XX表示客户端错误,5XX表示服务器响应错误

response.encoding 文本编码方式

response.text 字符串方式的响体

下面的代码为get请求,出了get请求以外,有时还需要发送一些编码为表单形式的数据,如在登录的时候就使用POST请求,GET请求密码会显示在URL中,如果要实现POST请求,就传递一个字典给requests中的data参数,这个数据字典就会在发出请求的时候自动编码为表单形式

# -*-ooding:utf-8-*-
import requests
from bs4 import BeautifulSoup
def get_movie():
    headers={
        'Host': 'movie.douban.com',
        'User-Agent': 'Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 45.0.2454.101Safari / 537.36'
    }
    movie_list=[]
    for i in range(10):
        url='https://movie.douban.com/top250?start='+str(i*25)
        response=requests.get(url,headers=headers,timeout=10)
        #print(response.text)
        print(str(i+1),'页响应状态编码',response.status_code)
        soup=BeautifulSoup(response.text,'lxml')
        div_list=soup.find_all('div',class_='hd')
        for each in div_list:
            movie=each.a.span.text.strip()
            movie_list.append(movie)
    print(movie_list)

get_movie()
上述代码爬取所有电影名称


    


    

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值