关与如何补数据？

最新推荐文章于 2023-12-27 01:47:13 发布

18妹

最新推荐文章于 2023-12-27 01:47:13 发布

阅读量1.3k

点赞数

分类专栏：抓取网络数据_设计工作日志

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caikundashu/article/details/19030469

版权

工作日志同时被 2 个专栏收录

66 篇文章 0 订阅

订阅专栏

抓取网络数据_设计

7 篇文章 0 订阅

订阅专栏

场景：从互联网上抓数据，当数据丢失的时候，如何去补抓数据，当然这个最初的设计有很大关系

为什么分20小时内与外？

我们抓取数据的时候，不可能把所有数据持续保存，这样的话我们检索数据的时候肯定会卡的死掉，所以，超过20小时外的数据，我们会持续的干掉，在抓取数据库只存20小时内数据。

正常的补数据：补最近20小时内的数据

正常情况下，我们的计划任务每4小时补一次数据，这样的补数据是为了在这个过程中产生空数据（产生空数据的原因有很多原因：当时新浪不能访问，但是根本没发布数据），补数据不是直接去网站上抓数据，而是拿离丢失数据最近的时间点取数据，直接放到汇总数据的数据库里面。这样如果数据丢失的比较多的话，会产生一样的数据（反应到折线图上面的话会是一条直线），这样的数据是不合理的，所以在在这个基础上我们对数据进行了处理，在此基础想加了radom+-5

补超过不在当前20小时内的数据：2个计划任务

1.首先需要改配置文件，告诉计划任务我需要补什么时间点到现在的数据，他会产生N个ZIP文件

2.接着需要使用计划任务，将zip包解压写到我们现在库里面，其实操作时候只要运行计划任务就可以

需要注意的：

1. 需要定位到数据那天那个小时是缺的

2. 如果是页面检验是否已经补数据成功，需要把缓存清掉，否则半个小时内看不到效果、

3. 整个过程是持续的，缺一不可

4. 当抓数据时候计划任务分类：

1 .抓网页数据的计划任务:作用:将数据抓到数据库里面

2.将抓到的数据汇总之后产生csv文件放到FTP上面。作用：这样可以减少数据库的读速度

3.将抓到的程序写到主库里面的计划任务。作用:减少数据库频繁的写操作

这三个计划任务是有时间先后顺序的，当在做开始时间执行的时候，需要定义时间，让其可以在正常时间跑起来，让其在一个节奏上面

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

18妹 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。