![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据入门
文章平均质量分 89
桥路丶
这个作者很懒,什么都没留下…
展开
-
大数据开发的工作内容与流程
像用cdc、ogg这样的一个技术,会监控数据库的日志。当然很多时候,在生产中的选型比较复杂,而且会有MPP与大数据产品一起使用的场景,但整体的流程不变,只是各阶段的产品有所替换。然后由流(处理)引擎,比如说spark生态圈的spark streaming,当然还有比较新的像flink这些产品进行一个实时处理。一般开源场景中,Hive是做数仓选型比较多的一个组件,或者放到Spark生态圈的spark sql中。因为实时产生的结果,会生成较多小文件,这里是在选型的时候需要注意的。这是数仓的基本架构流程。原创 2023-03-03 08:04:12 · 1705 阅读 · 0 评论 -
类比一下,秒懂大数据模式
大数据架构模式,其实与单机开发模式一致,类比一下就会更加清晰。原创 2023-02-28 07:51:23 · 1270 阅读 · 0 评论 -
大数据技术生态全景一览
这些产品它们各自的功能是什么,它们又是怎么样相互配合来完成一整套的数据存储,包括分析计算任务。这里要给大家进行一个讲解与分析。我们按照数据处理的流程,从下往上给大家进行依次的讲解。原创 2023-02-27 19:26:33 · 651 阅读 · 0 评论 -
从编年史角度看大数据兴起
那爬虫项目大家知道,它是源源不断的在爬取数据的,爬取回来的数据,发现数据量太大,没地方存储了。存在单机节点一定是有存储上限的。Hadoop发展成了两个1000节点的集群,运行了世界上最大的Hadoop应用,把它的搜索引擎部署在了拥有1万个内核的Hadoop集群上。但是它是一个数据库,数据存进来之后可以对数据进行很快速的一些增删改查,这个是它更擅长的,而且它的并发读性能也很好。Apache是一个基金会,它孵化了很多的一些开源项目,06年2月份的时候Hadoop这样一个项目就推到了Apache进行了一个孵化。原创 2023-02-26 15:34:09 · 729 阅读 · 0 评论 -
大数据常见应用场景及架构改进
而且它的抽取效率也是很慢的。比方说它可以展现公司之间的关系情况,在图中我们可以看到,a公司与b公司、c公司之间是没有联系的,而b公司和c公司之间是有一些联系的。所以大数据要发挥它的实力,一定是数据规模达到一定量级以后,当它的调度时间要远远小于它的计算时间。对于企业来说,一定要有抗压的这样的一个消息队列,这个消息队列它的抗压性能非常好,能够撑住足够的压力。在金融领域,图计算可以挖掘一些比如担保链的异常,比如a公司给b公司担保,b公司给c公司担保,c公司又给a公司担保,形成这样的一个链条肯定是非常有风险的。原创 2023-02-25 09:31:04 · 1252 阅读 · 0 评论 -
如何区分大数据离线与实时场景
比方说我们以离线处理场景为例,数据从数据源产生以后,我们先给它存起来。你不管存到哪个地方,假设保存的数据是10个GB,这10个GB的数据在后续的运算过程中它是不会增加或者减少的。它就是固定10个GB。我们基于这10个GB的数据,进行运算,这个时候完成的运算就是离线运算。离线运算最适合批处理这种方式来完成。处理完以后得到最终结果后进行输出,做一个保存。以批处理程序它的视角来看,我们处理的数据它是存起来的数据集,它是有边界的数据。存起来是10个G,处理的时候也是10个G,它不会增加和减少。原创 2023-02-24 08:51:03 · 1501 阅读 · 0 评论 -
转型大数据,要在恰当的时机
大数据是有它的定义的,不需要看网上很复杂的一些概念,把自己绕晕了。我们只需要记住一句话,大数据是满足数据达到海量规模以后,对这部分数据进行存储,包括计算的一种技术,或者说是一种技术生态。它是解决这些问题的。大家很多同学,一被问到什么是大数据,就立马想到4V特性。这个其实是不太合适的。什么是大数据的4V特性?这个是说大数据的场景,它有这4个特征。也就是数据量(Volume)、速度(Velocity)、多样性(Variety)、价值(Value)。原创 2023-02-23 19:43:12 · 1738 阅读 · 0 评论 -
大数据技术为何诞生,它究竟解决了哪些问题?
这个时候有没有存在一整套的解决方案,能够帮我们存储这种海量的结构化、半结构化以及非结构化数据。即使规模再大,都能完成存储。存储之后基于海量的数据进行计算时,它的效率也很高,并且能够有很强的扩展性。有没有这样一套方案呢?当然有,这就是大数据技术生态。对于大数据,有一个比较长的、比较权威的定义。大数据是指超出传统数据库工具收集、存储、管理和分析能力的数据集。与此同时,及时采集、存储、聚合、管理数据,以及对数据深度分析的新技术和新能力,正在快速增长,就像预测计算芯片增长速度的摩尔定律一样。原创 2023-02-23 19:40:04 · 680 阅读 · 0 评论