网站信息的采集系列（一）--基本流程

最新推荐文章于 2024-05-13 04:30:55 发布

视图猿人

最新推荐文章于 2024-05-13 04:30:55 发布

阅读量2.1k

点赞数 1

分类专栏： C++ / QT 文章标签： javascript html5 c++ qt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hulinhulin/article/details/121139528

版权

本文介绍了自动化网站数据采集的基本流程，包括理解网页结构、获取元素信息以及在程序中使用QWebEngine实现内容获取。通过实例展示了如何从微信小程序源码下载页面抓取源码名称和模板截图地址。

摘要由CSDN通过智能技术生成

互联网上存在海量的数据，各式各样的数据每天展现在我们面前，同时众多的金融、医学和计算机等学科的研究课题，都需要获取众多的数据作为样本进行科学分析，传统的人工采集操作根本上很难胜任数据采集，即便是能够收集也需要耗费众多的时间成本，自动化网站采集应用而生。一般采集数据是各种客户端所呈现的结构化数据，例如浏览器，APP等。数据存储在客户端。采集数据不会在服务器端采集，一方面比较困难，另外这也是一种违法行为。很多客户端也要求提供验证，如用户名密码等。

网站采集的原理基本一致，例如国内用的比较多的采集器某头、某鱼等，首先由客户端发出请求，服务器接受请求后再返回相应的数据，而采集器就从返回的数据中找到对应的数据。采集器根据采集要求自动发出不同的请求，例如模拟人的点击过程或者自定规则。网站的数据获取非常依赖数据的结构，必须根据不同的数据结构制定不同的采集规则。基本上每个网页的数据结构都不同，因此必须根据具体的网页来制定规则。

下面以某网站的一个页面为例，说明下网站数据采集的过程。

确定需要获取数据的网页

网页的结构如下图所示，这是个微信小程序源码的下载页面，需要获取如下内容：1 源码名称（仿天猫首页）；2 获取模板截图的地址

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
网站信息的采集系列（一）--基本流程

互联网上存在海量的数据，各式各样的数据每天展现在我们面前，同时众多的金融、医学和计算机等学科的研究课题，都需要获取众多的数据作为样本进行科学分析，传统的人工采集操作根本上很难胜任数据采集，即便是能够收集也需要耗费众多的时间成本，自动化网站采集应用而生。一般采集数据是各种客户端所呈现的结构化数据，例如浏览器，APP等。数据存储在客户端。采集数据不会在服务器端采集，一方面比较困难，另外这也是一种违法行为。很多客户端也要求提供验证，如用户名密码等。网站采集的原理基本一致，例如国...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

视图猿人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。