Python-web-scraping简介

最新推荐文章于 2025-03-02 22:26:51 发布

YanHanOOP

最新推荐文章于 2025-03-02 22:26:51 发布

阅读量2.7k

点赞数

分类专栏： Python-web-scraping 文章标签：数据技术 web python

Python-web-scraping 专栏收录该内容

1 篇文章

订阅专栏

一、什么是web scraping

简单的可以概括为以下步骤：

1.从一个域名（网址）获得HTML数据

2.从获得的数据中分析到目标信息

3.存储目标信息

4.如果你愿意，换一个网页重复上述操作

二、为什么要进行web scraping

1.如果只会通过浏览器访问互联网，我们将会丧失许多的可能。尽管浏览器可以很方便处理JavaScript脚本，展示图片，以人类可读的方式处理对象，但是web scraper更适合于收集和处理大量数据。因而，你不用一次只在一个小窗口里浏览一个页面，你可以一次性浏览上千甚至上百万的页面。

2.其次，web scraper还可以做传统搜索引擎做不了的工作。如果你用搜索引擎搜索“去往A市最便宜的航班”,那么你可能得到大量的广告或者是一些航班搜索站点。搜索引擎只知道这些网站的内容页面，却不知道针对具体问题的准确答案。然而一个开发良好的web scraper可以造访若干网站，记录通往A市的航班的价格，最终告诉你购票的最佳时间。

3.有些人可能会问，为什么不使用某些API呢？当然，如果恰好你能找到适合你的API，那再好不过。但是，也有一些原因导致某些你想要的API不存在：

1)某些你想要获得数据的站点，不提供相应的API

2)你需要的数据量较小、有限，所以站点管理员不认为这需要一些API

3)该数据源的管理者，没有相应的基础设施和技术能力进行API的开发

即使存在相应的API，也会存在种种原因使得你的目的不能被满足，所以@_@开始web scraping的学习吧。

三、附录

本系列博客参考该书进行编写

博客等级

码龄8年

0
原创

0
点赞

1
收藏

0
粉丝

关注

私信

热门文章

Python-web-scraping简介 2711

分类专栏

Python-web-scraping 1篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。