python3爬取豆瓣电影信息，图片，有源码（使用简单）

最新推荐文章于 2024-03-20 03:59:21 发布

bay233

最新推荐文章于 2024-03-20 03:59:21 发布

阅读量1.4k

点赞数 1

分类专栏： python瞎写文章标签： python

本文链接：https://blog.csdn.net/bay_bai/article/details/103836068

版权

python瞎写专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先下载安装python3安装教程

在控制台（Windows按 win+R）下载python插件：

python -m pip install --upgrade pip # 更新
pip install urllib3 # Http连接服务
pip install PyMySQL # Mysql连接插件
pip install beautifulsoup4  # 网页解析

附上这几个插件的学习PyMySQL urllib3 beautifulsoup4

国内下载慢建议在下列语句最后加上 pip清华大学下载源
-i https://pypi.tuna.tsinghua.edu.cn/simple some-package

使用MySQL 创建数据库film_test(原代码中使用到的库)：

# 电影基本信息存放表
create table films(
    id varchar(20) primary key,
    title  varchar(100),
    year varchar(20),
    director varchar(50),  #导演
    Screenwriter varchar(100), #编剧
    star varchar(500) , #主演
    type varchar(100), 
    region varchar(20),
    language varchar(100),
    uptime varchar(100),
    time varchar(15),
    briefing varchar(2000),
    score varchar(5),
    imgurl varchar(20)
);

# 电影播放链接表
create table film_link(
    id varchar(20) ,
    linkname varchar(20),
    linkpath varchar(100),
    ifVIP varchar(20),
    primary key(id, linkname)
);

下载源码下载链接

百度网盘地址网盘下载

将源码放在一个自定义的文件夹中

修改其中的数据库名，数据库连接用户，数据连接密码
图中实例为：
数据库为：film_test
用户名为：root
密码为：a
是远程数据可以配置ip=‘xxx,xxx,xxx,xxx’ 地址（默认为localhost）
修改连接信息
使用python自带的IDLE运行（或其他都行，Windows控制台等都行）
在这里插入图片描述
open刚刚下载的源码

进入豆瓣网，随便进入一部电影查看详情，这一段数字复制下来

输入开始的id ：将刚刚复制的数字拷贝到这里回车

输入本次爬取的数量

再次回车，稍等之后开始爬取

开始之后脚本在的文件夹中会自动生成img和log文件夹，分别存放图片和爬取日志
在这里插入图片描述
任务完成后自动结束

图片在img文件夹中，文字信息在数据库中。

bay233

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
python3爬取豆瓣电影信息，图片，有源码（使用简单）

首先下载安装python3安装教程下载python插件：python -m pip install --upgrade pip # 更行pip install urllib3 # Http连接服务pip install PyMySQL # Mysql连接插件pip install beautifulsoup4 # 网页解析国内下载慢建议在下列语句最后加上 pip清华大学下载源-...
复制链接

扫一扫

专栏目录