Datawhale_爬虫新手的进化史

最新推荐文章于 2024-08-24 17:05:22 发布

行人高锁3号

最新推荐文章于 2024-08-24 17:05:22 发布

阅读量261

点赞数

分类专栏：数据分析菜鸟文章标签：学习笔记爬虫

本文链接：https://blog.csdn.net/jelly_jun/article/details/89072072

版权

数据分析菜鸟专栏收录该内容

14 篇文章 0 订阅

订阅专栏

爬虫新手的进化史——day1

任务预览

引用文本1.1 学习get与post请求
学习get与post请求，尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求，并将其返回结果输出。
如果是断开了网络，再发出申请，结果又是什么。了解申请返回的状态码。
了解什么是请求头，如何添加请求头。
1.2 正则表达式
学习什么是正则表达式并尝试一些正则表达式并进行匹配。
然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容
要求抓取名次、影片名称、年份、导演等字段。
参考资料： https://desmonday.github.io/2019/03/02/python爬虫学习-day2正则表达式/
4月7日22:00前进入石墨文档提交打卡链接
https://shimo.im/docs/xu8br1UG1X8QDbuK/ 《爬虫任务一打卡》，可复制链接后用石墨文档 App 或小程序打开

1.1 学习get与post请求

1.1.1 get请求

所谓的get方法，便是利用程序使用HTTP协议中的GET请求方式对目标网站发起请求，同样的还有POST，PUT等请求方式，其中GET是我们最常用的，通过这个方法我们可以了解到一个请求发起到接收响应的过程。

import requests

start_url = 'https://www.baidu.com'
response = requests.get(url=start_url)
print(response) # 返回值：<Response [200]>

1.1.2 Post请求

post请求方式的使用和get方式并没有很大的区别，本质的区别在于它传递参数的方式并不像get方式一样，通过在url中拼接字段来发送给服务器，他采取了一种相较之下更为安全的操作方式，通过form表单的方式来向服务器传递查询条件。

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("https://www.baidu.com", data=payload)
print r.text

1.1.3 断开网络

如果断开了网络，再发出申请，结果将会是怎样呢？

Traceback (most recent call last):
 File "D:\Python\lib\urllib\request.py", line 1317, in do_open
  encode_chunked=req.has_header('Transfer-encoding')) 
 File "D:\Python\lib\http\client.py", line 1229, in request
   self._send_request(method, url, body, headers, encode_chunked) 
 File "D:\Python\lib\http\client.py", line 1275, in _send_request 
   self.endheaders(body, encode_chunked=encode_chunked) 
 File "D:\Python\lib\http\client.py", line 1224, in endheaders
   self._send_output(message_body, encode_chunked=encode_chunked) 
 File "D:\Python\lib\http\client.py", line 1016, in _send_output 
   self.send(msg) 
 File "D:\Python\lib\http\client.py", line 956, in send 
   self.connect() 
 File "D:\Python\lib\http\client.py", line 1384, in connect super().connect() 
 File "D:\Python\lib\http\client.py", line 928, in connect 
   (self.host,self.port), self.timeout, self.source_address) 
 File "D:\Python\lib\socket.py", line 727, in create_connection 
   raise err 
 File "D:\Python\lib\socket.py", line 716, in create_connection 
   sock.connect(sa)
TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
During handling of the above exception, another exception occurred: 

Traceback (most recent call last): 
 File "D:\Sublime text\例程\1.py", line 5, in <module> 
   response = urllib.request.urlopen(url) 
 File "D:\Python\lib\urllib\request.py", line 222, in urlopen 
   return opener.open(url, data, timeout) 
 File "D:\Python\lib\urllib\request.py", line 525, in open 
   response = self._open(req, data)
 File "D:\Python\lib\urllib\request.py", line 543, in _open 
   '_open', req) 
 File "D:\Python\lib\urllib\request.py", line 503, in _call_chain 
   result = func(*args) 
 File "D:\Python\lib\urllib\request.py", line 1360, in https_open 
   context=self._context, check_hostname=self._check_hostname) 
 File "D:\Python\lib\urllib\request.py", line 1319, in do_open 
   raise URLError(err)
 urllib.error.URLError: <urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。>
 [Finished in 43.0s with exit code 1]
 [shell_cmd: python -u "D:\Sublime text\例程\1.py"
 [dir: D:\Sublime text\例程
 [path:C:\windows\system32;C:\windows;C:\windows\System32\Wbem;C:\windows\System32\WindowsPowerShell\v1.0\D:\python;D:\Python\Scripts\;D:\Python\;C:\Users\Administrator\AppData\Local\Programs\Fiddler;D:\Fiddler2\Fiddler]

1.1.4 请求头

参考详解：Python爬虫请求头、请求代理以及cookie操作

1.2 正则表达式

1.2.1 正则表达式基础知识

正则表达式在爬虫中的使用则用于匹配特定特征的字符串，提取出或删除某些字符串。
正则表达式入门参考：python之正则表达式以及网络爬虫#

1.2.2 爬取豆瓣电影TOP250信息

目标：抓取豆瓣电影Top 250，保存电影封面到本地，保存电影的基本信息（片名、导演、时间、评分等）到txt文本。
链接：豆瓣电影TOP250
观察一下豆瓣电影各页的URL，构造所有的URL。

#导入requests库
import requests
#导入 re 库
import re
from requests.exceptions import RequestException
import json
#导入json库
import time
def get_one_page(url):
try:
headers = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36’}
r= requests.get(url, headers=headers)
#get请求
if r.status_code == 200:
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
return None
except RequestException:
return None

 def parse_one_page(html):pattern = re.compile(’.?(.?).?src="(.?)".?(.?).?
 .?: (.?)&.?’,re.S)
 items = re.findall(pattern, html)
 for item in items:yield {‘index’:item[0],‘image’:item[1],‘title’:item[2],‘director’:item[3]}
 
 def write_to_file(content):
 with open(‘result.text’,‘a’,encoding=‘utf-8’)as f:
 f.write(json.dumps(content,ensure_ascii=False)+"\n") 

def main():
url = “https://movie.douban.com/top250”
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if name == ‘main’:
main()
print(“Yep!”)
for rank, name, cord, numb, word in zip(rank_list, name_list, cord_list, numb_list, word_list):        
print(rank, name, '评分',cord, numb, word)