注意:抓取内容之前一定要查看下Robots协议
1、准备工作
1》第一步,安装python,安装requests、json库。
2、抓取分析
1》接下来我们打开网页分析下猫眼电影排行榜
2》猫眼电影排行榜的网址(http://maoyan.com/board/4)
3》拉到最下面,可以看到第一页只有10个,点击下一页
http://maoyan.com/board/4?offset=10,网址变了,添加了offset=10,那也就是说TOP100,offset=10、20、30...
3、抓取首页
开始抓取猫眼电影排行的首页
1 importrequests2
3
4 defget_one_page(url):5 headers ={6 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' #代理浏览器
7 + 'Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
8 }9 response = requests.get(url, headers = headers) #响应头
10 if response.status_code == 200: #判断是否成功响应
11 returnresponse.text12 returnNone13
14 defmain():15 url = 'http://maoyan.com/board/4' #定义网址
16 html = get_one_page(url) #获取对应的HTML
17 print(html) #控制台答应HTML
18
19 main()
截取其中一个的界面
上面我们获取到了html,接下来我们尝试提取其中我们想要的内容
4、正则提取
1 importrequests2 importre3
4
5 defget_one_page(url):6 headers ={7 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' #代理浏览器
8 + 'Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
9 }10 response = reques