1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。
import urllib.request
response = requests.get('https://www.baidu.com/')
print(r)
2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。
print('Code:',response.status)
3.了解什么是请求头,如何添加请求头
hander=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(hander)
4.学习什么是正则表达式并尝试一些正则表达式并进行匹配。
5.然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容
cookie = http.cookiejar.LWPCookieJar()
#
hander=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(hander)
response=opener.open("https://movie.douban.com/top250")
sHtml=response.read().decode('utf-8')
# print(sHtml)
print('Code:',response.status)
6.要求抓取名次、影片名称、国家、导演等字段。