1.概述
这是博主接触的第一个爬虫实例,利用python的request库和正则表达式对猫眼网站的Top100电影进行爬取,将结果打印出来并保存成txt文件。关键的部分有以下三点:
- python中request库的简单使用。
- 利用re模块来解析request到的页面。
- json格式文件存储和读取方法。
2.详细代码以及注释如下:
# -*-coding:utf-8 -*-
import json
import requests
from requests.exceptions import RequestException
import re
import time
def get_one_page(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
#re.S使得匹配包括换行符在内的所有字符。
pattern = re.compile('<dd>.*?board-index.*?>(\d&#