Python爬虫技术性总结（3）

最新推荐文章于 2024-09-12 16:44:01 发布

燕山588

最新推荐文章于 2024-09-12 16:44:01 发布

阅读量558

点赞数

分类专栏： python 程序员编程文章标签：分布式 python java 大数据编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kj7762/article/details/118677362

版权

本文总结了Python爬虫的基础知识，包括数据获取方式、爬虫原理、Python做爬虫的原因、爬虫的实现思路及常用库。还介绍了通用爬虫的工作流程、搜索引擎排名机制以及聚焦爬虫的概念。此外，探讨了爬虫与反爬虫的斗争，强调遵守 Robots 协议的重要性。

摘要由CSDN通过智能技术生成

通过前几期对爬虫的学习与分析，现做一下总结（文章结尾有惊喜）：

一、“大数据时代”，数据获取的方式：

企业生产的用户数据：大型互联网公司有海量用户，所以他们积累数据有天然的优势。

有数据意识的中小型企业，也开始积累的数据。

数据管理咨询公司：通常这样的公司有很庞大的数据采集团队，一般会通过市场调研、问卷调查、固定的样本检测，

和各行各业的公司进行合作、专家对话（数据积累很多年了，最后得出科研结果）来采集数据。

政府/机构提供的公开数据：政府通过各地政府统计上报的数据进行合并；机构都是权威的第三方网站。
第三方数据平台购买数据：通过各个数据交易平台来购买各行各业需要的数据，根据获取难度不同，价格也会不同。
爬虫爬取数据：如果市场上没有我们需要的数据，或者价格太高不愿意买，那么就可以招/做一个爬虫工程师，从互联网上定向采集数据。

二、什么是爬虫？

爬虫：就是抓取网页数据的程序。

三、爬虫怎么抓取网页数据：

网页三大特征：

-1. 网页都有自己唯一的URL（统一资源定位符）来进行定位

-2. 网页都使用HTML （超文本标记语言）来描述页面信息。

-3. 网页都使用HTTP/HTTPS（超文本传输协议）协议来传输HTML数据。

爬虫的设计思路：

-1. 首先确定需要爬取的网页URL地址。

-2. 通过HTTP/HTTP协议来获取对应的HTML页面。

-3. 提取HTML页面里有用的数据：

a. 如果是需要的数据，就保存起来。

b. 如果是页面里的其他URL，那就继续执行第二步。

四、为什么选择Python做爬虫？

可以做爬虫的语言有很多，如 PHP、Java、C/C++、Python等等…

PHP 虽然是世界上最好的语言，但是他天生不是干这个的，而且对多线程、异步支持不够好，并发处理能力很弱。

爬虫是工具性程序，对速度和效率要求比较高。

Java 的网络爬虫生态圈也很完善，是Python爬虫最大的对手。但是Java语言本身很笨重，代码量很大。

重构成本比较高，任何修改

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。