python爬虫,爬取豆瓣电影信息

hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字、评分、评分人数以及短评。

代码实现如下:

#第一个最简单的爬虫
#爬取了豆瓣top250电影的名字、评分、评分人数以及短评

#观察豆瓣电影top250的网页可以发现:
#电影信息在一个ol标签之内,该标签的class属性值为grid_view
#1.电影的信息都在一个li标签里
#2.电影的电影名称在:第一个class属性值为hd的div标签下的 第一个 class属性值为title 的span标签里
#3.电影的评分在对应li标签里一个class属性值为rating_num 的span标签里
#4.电影的评价人数在 对应li标签 里的一个 class属性值为star 的div标签中 的最后一个数字
#5.电影的短评在 对应li标签 里的一个class属性值为inq的span标签里
#6.除第一页外,其他页的url:https://movie.douban.com/top250?start=X&filter= X的值为25-225的等差数列,差为25

from lxml import etree
import requests
import re

def get_info(url):
	movie_info = ''
	#通过get访问页面
	html = requests.get(url)
	selector = etree.HTML(html.text)
	content = selector.xpath('//ol[@class="grid_view"]/li')
	#第一个for循环抓取一整页的数据
	for r in content:
		#抓取电影的名字
		movie_name = r.xpath('./div[@class="it
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值