网站爬虫Python

最新推荐文章于 2024-02-18 16:31:48 发布

VIP文章 liujiaping

最新推荐文章于 2024-02-18 16:31:48 发布

阅读量1.7k

点赞数

分类专栏： python B常用文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liujiaping/article/details/122506189

版权

最近学完Python，写了几个爬虫练练手，网上的教程有很多，但是有的已经不能爬了，主要是网站经常改，可是爬虫还是有通用的思路的，即下载数据、解析数据、保存数据。下面一一来讲。

1.下载数据

首先打开要爬的网站，分析URL，每打开一个网页看URL有什么变化，有可能带上上个网页的某个数据，例如xxID之类，那么我们就需要在上一个页面分析HTML，找到对应的数据。如果网页源码找不到，可能是ajax异步加载，去xhr里去找。

有的网站做了反爬的处理，可以添加User-Agent ：判断浏览器

1

2

3

self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

# 初始化 headers

self.headers = {'User-Agent': self.user_agent}

如果不行，在Chrome上按F12分析请求头、请求体，看需不需要添加别的信息，例如有的网址添加了referer：记住当前网页的来源，那么我们在请求的时候就可以带上。按Ctrl + Shift + C，可以定位元素在HTML上的位置

动态网页

有一些网页是动态网页，我们得到网页的时候，数据还没请求到呢，当然什么都提取不出来，用Python 解决这个问题只有两种途径：直接从JavaScript 代码里采集内容，或者用Python 的第三方库运行JavaScript，直接采集你在浏览器里看到的页面。

1.找请求，看返回的内容，网页的内容可能就在这里。然后可以复制请求，复杂的网址中，有些乱七八糟的可以删除，有意义的部分保留。切记删除一小部分后先尝试能不能打开网页，如果成功再删减，直到不能删减。

2.Selenium：是一个强大的网络数据采集工具（但是速度慢），其最初是为网站自动化测试而开发的。近几年，它还被广泛用于获取精确的网站快照，因为它们可以直接运行在浏览器上。Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像BeautifulSoup对象一样用来查找页面元素，与页面上的元素进行交互（发送文本、点击等），以及执行其他动作来运行网络爬虫。

PhantomJS：是一个“无头”（headless）浏览器。它会

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
网站爬虫Python

最近学完Python，写了几个爬虫练练手，网上的教程有很多，但是有的已经不能爬了，主要是网站经常改，可是爬虫还是有通用的思路的，即下载数据、解析数据、保存数据。下面一一来讲。1.下载数据首先打开要爬的网站，分析URL，每打开一个网页看URL有什么变化，有可能带上上个网页的某个数据，例如xxID之类，那么我们就需要在上一个页面分析HTML，找到对应的数据。如果网页源码找不到，可能是ajax异步加载，去xhr里去找。有的网站做了反爬的处理，可以添加User-Agent ：判断浏览器.
复制链接

扫一扫

专栏目录

liujiaping CSDN认证博客专家 CSDN认证企业博客

码龄18年

138: 原创

6万+: 周排名

3万+: 总排名

18万+: 访问

: 等级

1997: 积分

376: 粉丝

491: 获赞

18: 评论

683: 收藏

私信

关注

热门文章

分类专栏

系统那些事 6篇
Finereport 帆软 27篇
B常用 14篇
MySQL 58篇
SQL语句数据库 48篇
python 35篇
DBeaver 3篇
linux 15篇
php 5篇
Navicat for MySQL 2篇
ONES 3篇

最新评论

MySQL SQL 注入
xing.yu.CTF: 非常不错，可以给我的作品也评论一下吗
MySQL 导出数据
白话机器学习: 优质好文，博主的文章细节到位，内容干货很多，感谢博主的分享，期待博主持续带来更多好文！
MySQL 运算符BETWEEN.NOT. BETWEEN.IN.NOT IN
只年: 博客中的例子和案例引人入胜，让人更容易理解和接受观点。
MySQL连表操作之一对多
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
MySQL ORDER BY(排序) 语句-读取的数据进行排序
默o。: 文章写的很详细，条理清晰，很容易看进去，学到了很多知识，感谢博主分享，支持博主.希望博主也支持我的博客，一起进步

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。