python自动爬取更新电影网站_python爬取电影网站信息

一、爬取前提

1)本地安装了mysql数据库 5.6版本

2)安装了Python 2.7

二、爬取内容

电影名称、电影简介、电影图片、电影下载链接

三、爬取逻辑

1)进入电影网列表页, 针对列表的html内容进行数据提取 电影名称,电影简介, 电影图片, 电影详情URL, 插入数据库表

2)通过步骤1获取到的电影详情URL, 进入电影详情页, 获取下载链接, 更新数据库的下载链接字段

3)循环执行如上过程,直到数据被爬取完或者循环完毕。

三、爬取步骤

1)本地初始化数据库脚本 database.sql

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------

-- Table structure for movie

-- ----------------------------

DROP TABLE IF EXISTS`movie`;

CREATE TABLE`movie` (

`id` bigint(20) NOT NULLAUTO_INCREMENT,

`title` varchar(100) DEFAULT NULL,

`pic_url` varchar(100) DEFAULT NULL,

`target_url` varchar(100) DEFAULT NULL,

`introduction` varchar(1000) DEFAULT NULL,

`download_url` text,

`create_time` datetime DEFAULT NULL,

PRIMARY KEY(`id`)

) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

2) 运行 MovieSpider.py 文件, 开启爬虫(当前只爬取1000页数据, 总共约10万部电影)

3)查询数据库表, 观察爬取数据清空

select * from movie;

四、github代码地址

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值