python3爬取豆瓣电影信息,图片,有源码(使用简单)

首先下载安装python3安装教程

在控制台(Windows按 win+R)下载python插件:

python -m pip install --upgrade pip # 更新
pip install urllib3 # Http连接服务
pip install PyMySQL # Mysql连接插件
pip install beautifulsoup4  # 网页解析

附上这几个插件的学习PyMySQL urllib3 beautifulsoup4

国内下载慢 建议在下列语句最后加上 pip清华大学下载源
-i https://pypi.tuna.tsinghua.edu.cn/simple some-package

使用MySQL 创建数据库film_test(原代码中使用到的库):

# 电影基本信息存放表
create table films(
    id varchar(20) primary key,
    title  varchar(100),
    year varchar(20),
    director varchar(50),  #导演
    Screenwriter varchar(100), #编剧
    star varchar(500) , #主演
    type varchar(100), 
    region varchar(20),
    language varchar(100),
    uptime varchar(100),
    time varchar(15),
    briefing varchar(2000),
    score varchar(5),
    imgurl varchar(20)
);

# 电影播放链接表
create table film_link(
    id varchar(20) ,
    linkname varchar(20),
    linkpath varchar(100),
    ifVIP varchar(20),
    primary key(id, linkname)
);
下载源码下载链接
百度网盘地址网盘下载

将源码放在一个自定义的文件夹中

修改其中的数据库名,数据库连接用户,数据连接密码
图中实例为:
数据库为:film_test
用户名为:root
密码为:a
是远程数据可以配置ip=‘xxx,xxx,xxx,xxx’ 地址(默认为localhost)
修改连接信息
使用python自带的IDLE运行(或其他都行,Windows控制台等都行)
在这里插入图片描述
open刚刚下载的源码
在这里插入图片描述
在这里插入图片描述
进入豆瓣网,随便进入一部电影查看详情,这一段数字复制下来
在这里插入图片描述
输入开始的id :将刚刚复制的数字拷贝到这里 回车
在这里插入图片描述
输入本次爬取的数量
在这里插入图片描述
再次回车, 稍等之后开始爬取
在这里插入图片描述
开始之后脚本在的文件夹中会自动生成img和log文件夹,分别存放图片和爬取日志
在这里插入图片描述
任务完成后自动结束
在这里插入图片描述
图片在img文件夹中,文字信息在数据库中。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值