《python爬取豆瓣电影top250》

最新推荐文章于 2023-06-23 05:02:23 发布

SunnyArkin

最新推荐文章于 2023-06-23 05:02:23 发布

阅读量1.5k

点赞数 3

文章标签： python xpath 正则表达式

本文链接：https://blog.csdn.net/SunnyArkin/article/details/105458634

版权

文章目录

1、分析网页
2、请求服务器
3.xpath提取信息
4.正则表达式
- 4.1提取固定位置的信息
- 4.2匹配出数字
5、提取一页中的所有信息
6、把内容写入文本csv
7、把所有代码汇总

1、分析网页

当我们去爬取网页时，首先要做的就是先分析网页结构，然后就会发现相应的规律，如下所示：
网页分析
生成链接：从网页链接的规律中可得写一个for循环即可生成它的链接，其中它的间隔为25，程序如下：

for page in range (0,226,25):
    url ="https://movie.douban.com/top250?start=%s&filter="%page
    print (url)

得到的结果如下：
在这里插入图片描述

2、请求服务器

在爬取网页之前，我们要向服务器发出请求

2.1导入包

没有安装requests包的要先进行安装，步骤为：1.win+R运行——2.cmd回车——3.输入命令pip install requests

2.2设置浏览器代理

设置浏览器代理的代码如下：

headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

2.3请求服务器格式

请求源代码，向服务器发出请求，如果在后面加上.text表示输出文本内容，代码如下图所示：

requests.get(url = test_url, headers = headers)

2.4请求服务器代码汇总

import requests
#pip安转 pip install requests————>win+r,运行————>cmd,回车，————>pip
test_url = 'https://movie.douban.com/top250?start=0&filter=' #''格式化，为字符串

#设置浏览器代理,它是一个字典
headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

#请求源代码，向服务器发出请求,200代表成功
reponse = requests.get(url = test_url, headers = headers).text
# 快捷键运行，Ctrl+Enter

3.xpath提取信息

3.1获取xpath节点的方法

在这里插入图片描述

3.2xpath提取内容

from lxml import etree #导入解析库
html_etree = etree.HTML(reponse) # 看成一个筛子，树状

3.2.1提取文本

当我们在提取标签内的文本时，要在复制的xpath后面加上/text（）
如《霸王别姬》：

最低0.47元/天解锁文章

SunnyArkin

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
《python爬取豆瓣电影top250》

这里写自定义目录标题1、分析网页功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1、分析网页当我们去爬取网页时，首先...
复制链接

扫一扫