目标:为了找一些好看的电影,爬取猫眼电影排行榜前100的电影信息,看大家的选择是否适合自己
工具:pycharm
第三方库:requests,bs4
代码思路:
- 模拟浏览器请求,得到网页源码
- 通过解析库获取需要的标签信息
- 将得到的信息以文本形式保存下来
import requests
from bs4 import BeautifulSoup
import json
def get_page(url):
try:
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
res=requests.get(url,headers=headers)
if res.status_code == 200:
return res.text
else:
return None
except Exception:
print('请求失败,请重试')
return None
def get_info(html):
#获取电影的排名,电影名,主演,评分,上映时间
soup=BeautifulSoup(html,'html.parser')
tables=soup.select('dd')
#print(table