Python爬虫的基本概念、分类、学习路线以及爬取数据思路_定义爬虫的起始网址、爬取网址的规则(1)

最新推荐文章于 2024-08-16 00:28:12 发布

前端漫画书

最新推荐文章于 2024-08-16 00:28:12 发布

阅读量508

点赞数 13

分类专栏： 2024年程序员学习文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61549353/article/details/137895617

版权

2024年程序员学习专栏收录该内容

262 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

中华人民共和国统计局
World bank
Nasdaq

4、第三方数据平台购买数据

数据堂
贵阳大数据交易平台

5、爬虫数据

什么是爬虫？

抓取网页数据的程序

爬虫如何抓取网页数据？

首先需要了解网页的三大特征：

每个网页都有自己的URL（统一资源定位符）来定位
网页都使用HTML(超文本标记语言)来描述页面信息
网页都使用HTTP/HTTPS（超文本传输协议）来传输HTML数据

爬虫的设计思路：

首先确定需要爬取的网URL地址
通过HTTP/HTTPS协议来获取对应的HTML页面
提取HTML页面内有用的数据：

a. 如果是需要的数据–保存

b. 如果有其他URL，继续执行第二步

Python爬虫的优势？

学习路线

抓取HTML页面：

HTTP请求的处理： urllib, urlib2, requests
处理器的请求可以模拟浏览器发送请求，获取服务器响应的文件

解析服务器相应的内容:

re, xpath, BeautifulSoup(bs4), jsonpath, pyquery等
使用某种描述性语言来给我们需要提取的数据定义一个匹配规则，符合这个规则的数据就会被匹配

采集动态HTML，验证码的处理

通用动态页面采集： Selenium + PhantomJS:模拟真实浏览器加载JS
验证码处理: Tesseract机器学习库，机器图像识别系统

Scrapy框架:

高定制性，高性能（异步网络框架twisted）->数据下载快
提供了数据存储，数据下载，提取规则等组件

分布式策略：

scrapy redis：在scarpy基础上添加了以redis数据库为核心的一套组件,主要在redis做请求指纹去重、请求分配、数据临时存储

爬虫、反爬虫、反反爬虫之间的斗争:

User-Agent, 代理, 验证码, 动态数据加载, 加密数据

爬虫的分类

通用爬虫:

1.定义： 搜索引擎用的爬虫系统

2.目标： 把所有互联网的网页爬取下来，放到本地服务器形成备份，在对这些网页做相关处理（提取关键字，去除广告），最后提供一个用户可以访问的借口

3.抓取流程：

a) 首先选取一部分已有的URL，把这些URL放到带爬取队列中

b) 从队列中取出来URL，然后解析NDS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器里，之后把爬过的URL放入已爬取队列

c) 分析网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取结束

4.搜索引擎如何获取一个新网站的URL：

主动向搜索引擎提交网址： https://ziyuan.baidu.com/linksubmit/index

在其他网站设置网站的外链：其他网站上面的友情链接

搜索引擎会和DNS服务商进行合作，可以快速收录新网站

5.通用爬虫注意事项

通用爬虫并不是万物皆可以爬，它必须遵守规则：

Robots协议：协议会指明通用爬虫可以爬取网页的权限

我们可以访问不同网页的Robots权限

6.通用爬虫通用流程：

7.通用爬虫缺点

只能提供和文本相关的内容(HTML,WORD,PDF)等，不能提供多媒体文件(msic,picture, video)及其他二进制文件

提供结果千篇一律，不能针对不同背景领域的人听不同的搜索结果

不能理解人类语义的检索

聚焦爬虫的优势所在

DNS 域名解析成IP: 通过在命令框中输入ping www.baidu.com，得到服务器的IP

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
研究，那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-nKcpMvtQ-1713373877320)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

前端漫画书

关注

13
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫的基本概念、分类、学习路线以及爬取数据思路_定义爬虫的起始网址、爬取网址的规则(1)

抓取网页数据的程序。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

624: 原创

-: 周排名

-: 总排名

42万+: 访问

: 等级

1万+: 积分

5988: 粉丝

8914: 获赞

12: 评论

9163: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python logging 库的『完整教程』_perfect
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
第十六篇【传奇开心果系列】Python的OpenCV库技术点案例示例：图像质量评估
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第十六篇【传奇开心果系列】Python的OpenCV库技术点案例示例：图像质量评估
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python—四种方法求解最大连续子序列和_连续子序列和的最大值python
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python与其它编程语言的差异化总结_通过实验你觉得采用python语言进行计算与其他语言有何不同
墨瑾轩: 博主笔下妙生花，主题新识展才华。细节入微描世界，功力深厚映天涯。期待佳作连绵至，共赏文海浪涛沙。愿得博主金言点，同舟共济向前划。感激分享情无价，知识海洋任翱翔。携手共进逐梦想，未来之路共辉煌。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。