Python爬虫教程(一)：爬虫

天真的柏拉图

已于 2022-04-02 09:25:46 修改

阅读量1.1k

点赞数

分类专栏： Python爬虫文章标签： python 爬虫

于 2022-04-02 09:20:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IUUUUUUU/article/details/123912651

版权

Python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 爬虫相关概念

1.1 定义

一段根据url爬取网页获取有用信息的程序，使用程序模拟浏览器向服务器发送请求获取响应信息

1.2 核心

爬取网页：爬取整个网页，包含网页所有内容
解析数据：将网页中的数据进行解析

1.3 难点

爬虫与反爬虫之间的博弈

1.4 用途

数据分析/人工数据集
社交软件冷启动
舆情监控
竞争对手监控

1.5 分类

通用爬虫(无需掌握)：爬取的数据大多是无用的无法根据用户的需求精准获取数据

几乎所有的搜索引擎都是通用爬虫

一般过程为：访问网页—>爬取数据—>存储数据—>处理数据—>提供检索服务

本应该根据PageRank算法(参考网站流量、点击率等指标)进行排名，现在却通过竞价进行排名
聚焦爬虫(需要掌握)：根据需求实现爬虫程序抓取需要的数据

设计思路：
- 确定爬取的网页——如何获取url
- 模拟浏览器通过HTTP协议访问url，获取服务器返回的html代码——如何访问
- 解析html字符串(根据一定规则提取需要的数据)——如何解析

1.6 反爬手段

User-Agent
User-Agent(用户代理)，简称UA，是一个特殊的字符串头，使得服务器能够识别客户使用的操作系统及其版本、CPU类型、浏览器及其版本、浏览器渲染引擎、浏览器语言、浏览器插件等
代理IP
西次代理
快代理
高匿名、匿名和透明代理
1. 使用透明代理，对方服务器可以知道使用了代理并且也知道真实IP
2. 使用匿名代理，对方服务器可以知道使用了代理但是不知道真实IP
3. 使用高匿名代理，对方服务器不知道使用了代理更不知道真实IP
验证码访问
验证码校验，防止爬虫
反制手段：打码平台——云打码平台
动态加载页面
网站返回的是js数据，而不是网页真实的数据
反制手段：selenium驱动真实的浏览器发送请求
数据加密
将数据加密返回
反制手段：分析js代码

天真的柏拉图

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫教程(一)：爬虫

1. 爬虫相关概念1.1 定义一段根据url爬取网页获取有用信息的程序，使用程序模拟浏览器向服务器发送请求获取响应信息1.2 核心爬取网页：爬取整个网页，包含网页所有内容解析数据：将网页中的数据进行解析1.3 难点爬虫与反爬虫之间的博弈1.4 用途数据分析/人工数据集社交软件冷启动舆情监控竞争对手监控1.5 分类通用爬虫(无需掌握)：爬取的数据大多是无用的无法根据用户的需求精准获取数据几乎所有的搜索引擎都是通用爬虫一般过程为：访问网页—>爬取数据—
复制链接

扫一扫

专栏目录

天真的柏拉图 CSDN认证博客专家 CSDN认证企业博客

码龄7年

19: 原创

28万+: 周排名

121万+: 总排名

2万+: 访问

: 等级

216: 积分

3: 粉丝

6: 获赞

3: 评论

52: 收藏

私信

关注

热门文章

分类专栏

最新评论

水文数据的采集
keepgoinggetstro: 请问链接里的这个河流水文数据的api会带经纬度吗，我也是在这个阿里云买的，我的跟你的数据有点不一样，我的没有经纬度
GDAL学习——Java语言实现图像裁切（一）
老王就是我: 有没有那种，ps里面的图片切片，后在html加载形成的分段加载一张图片的功能？
SSM的整合
夜郎king: 基础内容，不断学习，加油

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。