首先下载安装python3安装教程
在控制台(Windows按 win+R)下载python插件:
python -m pip install --upgrade pip # 更新
pip install urllib3 # Http连接服务
pip install PyMySQL # Mysql连接插件
pip install beautifulsoup4 # 网页解析
附上这几个插件的学习PyMySQL urllib3 beautifulsoup4
国内下载慢 建议在下列语句最后加上 pip清华大学下载源
-i https://pypi.tuna.tsinghua.edu.cn/simple some-package
使用MySQL 创建数据库film_test(原代码中使用到的库):
# 电影基本信息存放表
create table films(
id varchar(20) primary key,
title varchar(100),
year varchar(20),
director varchar(50), #导演
Screenwriter varchar(100), #编剧
star varchar(500) , #主演
type varchar(100),
region varchar(20),
language varchar(100),
uptime varchar(100),
time varchar(15),
briefing varchar(2000),
score varchar(5),
imgurl varchar(20)
);
# 电影播放链接表
create table film_link(
id varchar(20) ,
linkname varchar(20),
linkpath varchar(100),
ifVIP varchar(20),
primary key(id, linkname)
);
下载源码下载链接
百度网盘地址网盘下载
将源码放在一个自定义的文件夹中
修改其中的数据库名,数据库连接用户,数据连接密码
图中实例为:
数据库为:film_test
用户名为:root
密码为:a
是远程数据可以配置ip=‘xxx,xxx,xxx,xxx’ 地址(默认为localhost)
使用python自带的IDLE运行(或其他都行,Windows控制台等都行)
open刚刚下载的源码
进入豆瓣网,随便进入一部电影查看详情,这一段数字复制下来
输入开始的id :将刚刚复制的数字拷贝到这里 回车
输入本次爬取的数量
再次回车, 稍等之后开始爬取
开始之后脚本在的文件夹中会自动生成img和log文件夹,分别存放图片和爬取日志
任务完成后自动结束
图片在img文件夹中,文字信息在数据库中。