本文主要是应用requests+ re 获取猫眼top100 电影的名称,评分,上映时间…等信息。
解析网站:每页显示10个,向下翻页在url后面添加offset=10的倍数
要获取的内容均在<dd 标签里面。
另外,代码中的headers信息可以自行填写,可通过以下方式找到哦:
好了,下面就直接正文代码了,希望对向我这样的初学者有帮助!
import requests
from requests.exceptions import RequestException
import re
from multiprocessing import Pool # 多线程运行
import json
# import os
def get_one_page(url):
try:
headers = {'User-Agent&