最近有人问我Python爬虫相关的东西,所以打算把我之前写的爬豆瓣TOP250的影片信息并存入数据库的内容写出来。
爬取豆瓣TOP250的影片信息
# coding:utf-8
import uuid
import requests
import unicodedata
from lxml import html
import db_douban
def list_douban_top250():
print('正在获取豆瓣TOP250影片信息并存入数据库...')
movies = []
index = 1
page_count = 10
for i in range(page_count):
url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
url_content = requests.get(url).content
# 内容节点
doc = html.fromstring(url_content)
for y in doc.xpath('//div[@class="info"]'):
# 影片名称
name = y.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]
# 影片详情
move_content = y.xpath('div[@class="bd