052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）

一个有趣的昵称

已于 2022-05-14 16:27:48 修改

阅读量325

点赞数 1

文章标签： python 爬虫开发语言

于 2022-05-14 14:52:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62530644/article/details/124767819

版权

本文介绍了Python爬虫的基本概念，包括通过URL爬取网页内容和解析数据。爬虫类型分为通用爬虫和聚焦爬虫，前者用于搜索引擎，后者针对特定需求抓取数据。还探讨了反爬虫策略，如User-Agent、代理IP、验证码以及动态加载页面的应对方法。同时提到了数据处理，如HTTP响应的处理和网页内容的解码编码。

摘要由CSDN通过智能技术生成

爬虫解释：

通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息

实用程序模拟浏览器，去向服务发送请求，获取响应信息

爬虫的核心

爬取网页：爬取整个网页包含了网页中所的内容

解析数据：将网页中得到的数据进行解析

难点：爬虫和但爬虫之间的博弈

爬虫的类型

实例

通用爬虫

百度，360，Google，搜狗等搜索引擎

功能

访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务

robots协议

一个约定俗成的协议，添加robots.txt文件来说明本网站哪些内容不可被抓取，起不到限制作用自己写的爬虫无需遵守

网站排名（seo）

1根据pagerank算法进

最低0.47元/天解锁文章

一个有趣的昵称

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）

爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robots协议...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。