认识爬虫
4个v
第一个V就是volume,是大量的。大数据的量很大,某一个程度上达到PB级才是大数据,但是有时候几百T也是大数据。
第二个V(variety)是类型,现在随着互联网的发展,很多类型不再是我们传统意义上处理的结构化数据,有时候是半结构化,甚至是非结构化,原有的信息技术很难处理的技术。
第三个V(velocity)是速度,就是大数据的处理速度要很快,在很快、很及时的时间内,从大量的数据中来非常及时的获得到我想要的数据和信息。比如说这个数据半个月以后分析出来好了,但是对我已经没有用了,时间已经过去了。在公共安全的领域甚至治安的领域,利用数据分析是很现实的一个应用。
第四个是value,大家知道,实际上value表示的是价值密度低,它是一个“废品利用”、“沙里淘金”、“大海捞鱼”的过程。从国家发改委牵头从一两年之前开始研究,会同工信部等部门来做相关行动纲要的研究和起草。从国家信息化发展大的角度来说,行动纲要的大数据的角度来看,我们学习大数据有一个共识,这样才对它的战略、内容会有更好的理解。
<

本文介绍了大数据的4个V——volume、variety、velocity和value,阐述了爬虫在处理大量、不同类型、快速处理和价值密度低的数据中的重要角色,强调了爬虫在大数据时代的价值。
最低0.47元/天 解锁文章
1773

被折叠的 条评论
为什么被折叠?



