《python爬取豆瓣电影top250》

1、分析网页

当我们去爬取网页时,首先要做的就是先分析网页结构,然后就会发现相应的规律,如下所示:
网页分析
生成链接:从网页链接的规律中可得写一个for循环即可生成它的链接,其中它的间隔为25,程序如下:

for page in range (0,226,25):
    url ="https://movie.douban.com/top250?start=%s&filter="%page
    print (url)

得到的结果如下:
在这里插入图片描述

2、请求服务器

在爬取网页之前,我们要向服务器发出请求

2.1导入包

没有安装requests包的要先进行安装,步骤为:1.win+R运行——2.cmd回车——3.输入命令pip install requests

2.2设置浏览器代理


设置浏览器代理的代码如下:

headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

2.3请求服务器格式

请求源代码,向服务器发出请求,如果在后面加上.text表示输出文本内容,代码如下图所示:

requests.get(url = test_url, headers = headers)

2.4请求服务器代码汇总

import requests
#pip安转 pip install requests————>win+r,运行————>cmd,回车,————>pip
test_url = 'https://movie.douban.com/top250?start=0&filter=' #''格式化,为字符串

#设置浏览器代理,它是一个字典
headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

#请求源代码,向服务器发出请求,200代表成功
reponse = requests.get(url = test_url, headers = headers).text
# 快捷键运行,Ctrl+Enter

3.xpath提取信息

3.1获取xpath节点的方法

在这里插入图片描述

3.2xpath提取内容

from lxml import etree #导入解析库
html_etree = etree.HTML(reponse) # 看成一个筛子,树状

3.2.1提取文本

当我们在提取标签内的文本时,要在复制的xpath后面加上/text()
如《霸王别姬》:

<
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值