hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字、评分、评分人数以及短评。
代码实现如下:
#第一个最简单的爬虫
#爬取了豆瓣top250电影的名字、评分、评分人数以及短评
#观察豆瓣电影top250的网页可以发现:
#电影信息在一个ol标签之内,该标签的class属性值为grid_view
#1.电影的信息都在一个li标签里
#2.电影的电影名称在:第一个class属性值为hd的div标签下的 第一个 class属性值为title 的span标签里
#3.电影的评分在对应li标签里一个class属性值为rating_num 的span标签里
#4.电影的评价人数在 对应li标签 里的一个 class属性值为star 的div标签中 的最后一个数字
#5.电影的短评在 对应li标签 里的一个class属性值为inq的span标签里
#6.除第一页外,其他页的url:https://movie.douban.com/top250?start=X&filter= X的值为25-225的等差数列,差为25
from lxml import etree
import requests
import re
def get_info(url):
movie_info = ''
#通过get访问页面
html = requests.get(url)
selector = etree.HTML(html.text)
content = selector.xpath('//ol[@class="grid_view"]/li')
#第一个for循环抓取一整页的数据
for r in content:
#抓取电影的名字
movie_name = r.xpath('./div[@class="it