python爬虫学习（1）——初识爬虫

兵马俑学编程

已于 2024-05-26 23:56:50 修改

阅读量1.4k

点赞数 7

分类专栏： python成神之路文章标签：爬虫学习笔记经验分享 python

于 2024-05-26 23:13:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72811193/article/details/139222719

版权

python成神之路专栏收录该内容

4 篇文章 1 订阅

订阅专栏

520那天我向心仪的女孩要微信：“女神，能给我你的微信号吗？”

女神：“爬！！！！”
从那天开始，我就决定要学好爬虫，爬到女神微信号！！！

目录

1、网络爬虫概述

2、网络爬虫的类型：

3、网络爬虫的工作原理：

4、网络爬虫的设计考虑：

5、搭建开发环境

1、网络爬虫概述

网络爬虫（Web Crawler），也称为网页蜘蛛（spider）或机器人（bot），是一种自动浏览互联网的程序。它的主要任务是从一个或多个起始网页开始，递归地访问网页，收集信息，并将其存储在本地数据库中，以供搜索引擎索引或进行其他类型的分析。

2、网络爬虫的类型：

通用爬虫：爬取互联网上广泛的网页，用于构建大型搜索引擎的索引。
聚焦爬虫：专注于特定主题或领域的网页，用于构建特定领域的搜索引擎或数据库。
增量爬虫：定期爬取网页，只更新那些自上次爬取以来发生变化的网页。

3、网络爬虫的工作原理：

选择起始点：爬虫从预定义的URL列表或种子URL开始。
发送请求：爬虫向目标网页发送HTTP请求。
接收响应：服务器响应请求，返回网页内容。
解析内容：爬虫解析网页内容，提取有用的信息，如文本、图片、链接等。
存储数据：将提取的信息存储到数据库中。
发现新链接：分析网页中的链接，将新的URL添加到待爬取的队列中。
重复过程：对新发现的链接重复上述过程。

4、网络爬虫的设计考虑：

爬取策略：如何决定访问哪些网页，常见的策略有广度优先、深度优先等。
重复内容的处理：避免爬取重复内容，节省资源。
用户体验：尊重网站的robots.txt文件，遵守爬取规则，减少对服务器的压力。
数据质量：确保收集的数据准确、完整。
法律和道德问题：遵守相关法律法规，尊重版权和隐私。

5、搭建开发环境

我使用用conda来管理python环境；使用VScode/pycharm取决于你；
我的往期博客；

window下下载Anaconda及python并创建虚拟环境
 在window下下载Anaconda时新建的虚拟环境在C盘解决方案

兵马俑学编程

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫学习（1）——初识爬虫

网络爬虫（Web Crawler），也称为网页蜘蛛（spider）或机器人（bot），是一种自动浏览互联网的程序。它的主要任务是从一个或多个起始网页开始，递归地访问网页，收集信息，并将其存储在本地数据库中，以供搜索引擎索引或进行其他类型的分析。
复制链接

扫一扫

专栏目录

兵马俑学编程 CSDN认证博客专家 CSDN认证企业博客

码龄2年

53: 原创

1万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

906: 积分

207: 粉丝

297: 获赞

23: 评论

254: 收藏

私信

关注

热门文章

分类专栏

最新评论

在树莓派3B+中下载opencv（遇到的各种问题及解决）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618777589。
VM中Ubuntu16.04的下载以及ROS—kinetic的版本下载
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618769686。
虚拟机VMware下ROS Neotic(Ubuntu 20.04)下安装OpenCV
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
安装VMware后的相关配置
2401_83974256: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
安装VMware后的相关配置
v_648374: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

兵马俑学编程 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。