python爬取万方数据库_Python3爬取豆瓣电影保存到MySQL数据库

48行代码实现Python3爬取豆瓣电影排行榜

代码基于python3,用到的类库有:

requests:通过伪造请求头或设置代理等方式获取页面内容,参考文档

BeautifulSoup:对页面进行解析,提取数据,参考文档

PyMySQL:python3版本中用于操作MySQL数据库,python2中则使用mysqldb,Github

pip安装用到的几个类库:

pip install requests

pip install bs4

pip install pymysql

分析豆瓣电影页面

页面分析:

爬取数据之前,我们都需要对页面进行分析,看我们可以从中提取到哪些数据,从下图我们看到豆瓣电影top250的页面结构,我们可以从中提取出排行榜(rank)、电影名字(name)、电影详情页链接(link)、电影海报(poster)、电影评分(score)、电影评论(quote)等,我在图中进行了标注

URL分析:

通过点击分页我们可以发现URL的格式为:https://movie.douban.com/top250?start=num&filter=

其中num表示25的倍数的数字,最小是0也就是第一页,最大为225也就是最后一页,这可以作为我们爬取页面的限制条件,filter为过滤条件这里可不用管

代码

引入类库:

import pymysql

import requests

from bs4 import BeautifulSoup

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值