运行环境:Macbook pro MacOS Mojave 10.14.5
编译器:科赛(https://www.kesci.com)
爬虫技术需要的技能:python/BeautifulSoup/HTML/Pandas
好的,话不多说,我们开始学习如何使用爬虫来获取豆瓣上top250的电影信息。
一. 获取网页信息
import requests
from bs4 import BeautifulSoup
list = []
url = 'https://movie.douban.com/top250?start='
for i in range(0,10):
s = i*25
list.append(url + s + '&filter=')
二.解析网页信息(数据采集)
requests获取的是网页数据,无法直接是要,我们要把数据进行整理,
for l in list:
r = requests.get(url) #获取网页信息
soup = BeautifulSoup(r.text,'lxml')