第一次练习爬虫,爬取的是豆瓣电影top250的信息
'''
豆瓣电影top250 https://movie.douban.com/top250
第二页https://movie.douban.com/top250?start=25
第三页https://movie.douban.com/top250?start=50
一共10页
'''
import requests
from bs4 import BeautifulSoup
import re
#获得html页面
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = "utf-8"
return r.text
except:
return ""
#爬取需要的内容
def parserPage(list, html):
soup = BeautifulSoup(html, 'html.parser')
infoFilm = soup.find