1.在请求头headers里查看 user-agent 和host
response=requests.get(url)
response.status_code 响应状态吗,200代表请求成功,4XX表示客户端错误,5XX表示服务器响应错误
response.encoding 文本编码方式
response.text 字符串方式的响体
下面的代码为get请求,出了get请求以外,有时还需要发送一些编码为表单形式的数据,如在登录的时候就使用POST请求,GET请求密码会显示在URL中,如果要实现POST请求,就传递一个字典给requests中的data参数,这个数据字典就会在发出请求的时候自动编码为表单形式
# -*-ooding:utf-8-*- import requests from bs4 import BeautifulSoup def get_movie(): headers={ 'Host': 'movie.douban.com', 'User-Agent': 'Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 45.0.2454.101Safari / 537.36' } movie_list=[] for i in range(10): url='https://movie.douban.com/top250?start='+str(i*25) response=requests.get(url,headers=headers,timeout=10) #print(response.text) print(str(i+1),'页响应状态编码',response.status_code) soup=BeautifulSoup(response.text,'lxml') div_list=soup.find_all('div',class_='hd') for each in div_list: movie=each.a.span.text.strip() movie_list.append(movie) print(movie_list) get_movie()上述代码爬取所有电影名称