话不多说直接上代码
import requests
import re
import json
import time
from requests.exceptions import RequestException
# 构造请求头,将爬虫伪装成浏览器去请求单个网页的html内容
def get_one_page(url):
try:
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\
AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/70.0.3538.67 Safari/537.36'
}
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
else:
return None
except RequestException:
return None
# 构造正则表达式匹配我们想得到的信息
def parse_one_page(html):
pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>'+
'.*?data-src="(.*?)"'+
'.*?name.*?a.*?>(.*?)</a>'+
'.*?star.*?>(.*?)</p>'+
'.*?releasetime.*?>(.*?)</p>'+
'.*?integer.*?>(.*?)</i>'+
'.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)
result=re.findall(pattern,html)
for items in result: # 将获取到的内容去除空格、杂讯等进行整理,生成字典,并构造一个生成器函数
yield {
'index':items[0],
'image':items[1],
'title':items[2],
'actor':items[3].strip()[3:] if len(items[3]) >3 else '',
'time':items[4].strip()[5:] if len(items[4]) >5 else '',
'score':items[5]+items[6],
}
# 将提取到的内容保存为txt文件
def write_to_file(content):
with open('result.txt','a',encoding='utf-8') as f:
print(type(json.dumps(content)))
# 用json模块的dumps()函数将字典转化为字符串,设置参数ensure_ascii为False保证输出是中文格式
f.write(json.dumps(content,ensure_ascii=False))
# 对每页爬取到的信息进行整理并保存
def main(offset):
url="http://maoyan.com/board/4?offset="+str(offset)
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
# 根据url的规律进行分页爬取
if __name__=='__main__':
for i in range(10):
main(offset=i*10)
time.sleep(1) # 速度太快会被网站发现返回不了任何信息,所以用time.sleep()设置延缓执行
{'index': '1', 'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'title': '霸王别姬', 'actor': '张国荣,张丰毅,巩俐', 'time': '1993-01-01', 'score': '9.6'}
<class 'str'>
{'index': '2', 'image': 'http://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'title': '肖申克的救赎', 'actor': '蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', 'time': '1994-10-14(美国)', 'score': '9.5'}
<class 'str'>
{'index': '3', 'image': 'http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c', 'title': '罗马假日', 'actor': '格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', 'time': '1953-09-02(美国)', 'score': '9.1
.........{'index': '99', 'image': 'http://p1.meituan.net/movie/a1634f4e49c8517ae0a3e4adcac6b0dc43994.jpg@160w_220h_1e_1c', 'title': '迁徙的鸟', 'actor': '雅克·贝汉,Philippe Labro', 'time': '2001-12-12(法国)', 'score': '9.1'}
<class 'str'>
{'index': '100', 'image': 'http://p0.meituan.net/movie/3e5f5f3aa4b7e5576521e26c2c7c894d253975.jpg@160w_220h_1e_1c', 'title': '英雄本色', 'actor': '狄龙,张国荣,周润发', 'time': '2017-11-17', 'score': '9.2'}
<class 'str'>
参考:崔庆才《python3网络爬虫开发实战》