python猫眼电影分析_抓取猫眼电影

注意:抓取内容之前一定要查看下Robots协议

1、准备工作

1》第一步,安装python,安装requests、json库。

2、抓取分析

1》接下来我们打开网页分析下猫眼电影排行榜

2》猫眼电影排行榜的网址(http://maoyan.com/board/4)

3》拉到最下面,可以看到第一页只有10个,点击下一页

http://maoyan.com/board/4?offset=10,网址变了,添加了offset=10,那也就是说TOP100,offset=10、20、30...

3、抓取首页

开始抓取猫眼电影排行的首页

1 importrequests2

3

4 defget_one_page(url):5 headers ={6 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' #代理浏览器

7 + 'Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

8 }9 response = requests.get(url, headers = headers) #响应头

10 if response.status_code == 200: #判断是否成功响应

11 returnresponse.text12 returnNone13

14 defmain():15 url = 'http://maoyan.com/board/4' #定义网址

16 html = get_one_page(url) #获取对应的HTML

17 print(html) #控制台答应HTML

18

19 main()

截取其中一个的界面

上面我们获取到了html,接下来我们尝试提取其中我们想要的内容

4、正则提取

1 importrequests2 importre3

4

5 defget_one_page(url):6 headers ={7 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' #代理浏览器

8 + 'Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

9 }10 response = reques

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值