爬取网址:https://movie.douban.com/top250
爬取信息:电影名称,导演,主演,类型,制片国家,上映时间,片长,评分
爬取方式:进入详细页面爬取,lxml,re解析。
存储方式:MySQL存储
image.png
使用MySQL存储,首先需要在SQLyog中建立数据表:
CREATE TABLE topmovies (
电影名称 TEXT,
导演 TEXT,
主演 TEXT,
类型 TEXT,
制片地 TEXT,
上映时间 TEXT,
片长 TEXT,
评分 TEXT
)ENGINE INNODB DEFAULT CHARSET=utf8;
注意:中文字段无需用""括起来,不能写成:"电影名称" TEXT。
然后在快捷菜单中选择“执行查询”或使用F9键执行代码,即可完成数据表的创建。
image.png
代码如下:
import requests
from lxml import etree