![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
木楚
每一个技术大牛都是从力定信念和苦学的菜鸟开始,每一个技术菜鸟都是从放弃谦卑和学习的技术大牛开始!
展开
-
Flink窗口时间与触发和Watermaker之间的关系
Flink窗口时间与触发时机和Wartermarker之间的关系原创 2022-03-17 14:12:51 · 2652 阅读 · 1 评论 -
联合之大数据(三:数据存储)
数据的存储一直是一个很热门的话题和技术,数据的存储不但要持久化存储,还要有更优的存储技术。有些人会想能把数据存起来就好了干嘛还有更优的存储呢?我现在这里说明一下,这里所指的更优化的存储指的是:数据写入和读取的速度、数据存储的安全、数据存储的备份和容灾、数据存取的事务性。在这四项里面数据写入和读取的速度与数据存储的安全就一直是一个痛点也可以说是你死我活的点。一般的比较体积比较小的数据只需要少...原创 2020-01-13 16:44:12 · 403 阅读 · 0 评论 -
联合之大数据(二:数据产生)
数据产生:数据的产生主要体现在单位时间内有新发生记录、变化,且后发生的数据不会影响前面的数据保留。那么数据产生一般可从不同的角度可分为:从数据的完整度可分为:全量数据、半全量数据、非全量数据;从数据的时效性可分为:实时动态数据、历史静态数据;从数据的价值可分为:有效数据,垃圾数据,可清洗数据;从数据的关联关系上分:可分为关系型数据、非关系型数据、中间型数据。以目前数据产生的行为来看,某一个...原创 2020-01-13 15:08:14 · 854 阅读 · 0 评论 -
联合之大数据(一:数据起源)
数据其实是一个很常见的东西,怎么地呢?比如:有一个孩子叫小明从小学到初中再到高中这三个阶段,如果每一个阶段他的学习成绩都很好在班上甚至整个年级每次考试都能名列前茅,那么在他考大学的时候他的父母、老师、同学认为他考上重点大学的可能性就很高。这个可能性是从何而来?如果我们让一个陌生人看一眼小明没有其他的交流和资料的辅助,一个陌生人绝不会这样认为。那么他的父母、老师、同学认为他考上重点大学的可能性如此之...原创 2020-01-13 13:03:02 · 654 阅读 · 0 评论 -
大数据、人工智能、区块链、数据结构与算法等技术的全面讨论与企业开发(前言篇)
从今天开始我会从大数据、人工智能、区块链、数据结构与算法等技术全面讨论讲解和企业级应用开发指导。大数据方面会以二十四种大数据技术和大数据未来的技术方向预测和实现思路进行阐述;在人工智能方面除机器学习、深度学习等方面还对会涉及到高等数学、线性代数等方面的知识这个也会在本次的全面阐述;在区块链中会对密码学、网络通信、以太坊、智能合约等方面进行阐述;数据结构和算法会以数组、链表、二叉树、红黑树、B树...原创 2019-11-17 20:53:39 · 929 阅读 · 0 评论 -
RabbitMQ进阶使用(多消费者亦为WorK模式)
上一次我们聊了RabbitMQ服务的构建和简单使用。我在这里聊一下里面的关键字:Message :消息,消息是不具名的,它由消息头和消息体组成。消息体是不透明的,而消息头则由一系列的可选属性组成,这些属性包括routing-key(路由键)、 priority(相对于其他消息的优先权)、 delivery-mode(指出该消息可能需要持久性存储)等。Publisher:消息的生产者,也是...原创 2019-07-21 15:42:54 · 5104 阅读 · 0 评论 -
RabbitMQ的安装及使用
RabbitMQ是一个处理在离线的消息中间件也可以说是一个消息引擎,它的标准用法是:生产者(productor)生产消息发送到队列,消费者(consumer)从队列中取出并处理消息,生产者无需关心谁来消费,消费者也不用关心消息的来源,从而达到解耦的目的。RabbitMQ完成分布式系统异步通信在大中型分布式系统中,RabbitMQ可以帮助各个子系统的数据及时同步到后台模块,并提供数据通道帮助触发其他...原创 2019-07-20 15:26:42 · 709 阅读 · 0 评论 -
Apache Zookeeper在Windows10使用
今天有个之前的同事问我,在win10中构建的zookeeper启动一直报错怎么搞,这个错主要是加载不到主类:....这个简单的来说一下,首先zookeeper在Windows中是可以运行的,但是要注意在Windows中运行只能在开发时本机测试或者学习时用一下就好了,不能上生产环境。接下来我就快速的构建一次在win10里的环境首先去zookeeper去下载一个稳定的版本,注意这里推荐的是zo...原创 2019-07-03 20:57:31 · 1933 阅读 · 1 评论 -
Spark中SparkSQL的基础用法
SparkSQL其实说白了就是方便开发人员对RDD进行间接的操作,之我前在阿里巴巴架构数据中台的时候本来想随笔的写写今天有时间就随便写点。SparkSQL中的DataFrame本质上还是一个RDD但是DataFrame本质上又是一个DataSet,SparkSQL的中心是一个SparkCore,SparkCorez中RDD是核心。不说了直接上第一种写法使用spark1.x版本packag...原创 2019-06-26 23:06:12 · 1630 阅读 · 0 评论 -
Scala中查看collection中方法和函数的签名
很长一段时间没玩scala了,连查看函数签名的方式都忘记了,来吧还是写一下:在scala中如果要查看一个函数的签名或者查看scala中collection下的所有集合可以在输入完命令后输入tab键来查看。比如在上图中,我需要查看count方法的签名,所谓签名就是方法的定义。就可以输入list.count+Tab(制表符)...原创 2019-05-28 17:00:13 · 589 阅读 · 0 评论 -
Spark中reduceByKey(_+_)的说明
比如我的内存中存在如下的以key-value形式的数据集(RDD):hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 ... ...reduceByKey的作用对象是(key, value)形式的RDD,而reduce有减少、压缩...原创 2019-05-18 20:05:54 · 16392 阅读 · 0 评论 -
Zookeeper集群中注意的几点
1.leader整个集群中的老大,所有的写(Write)操作都是由其他Follower转发给leader,再由leader向Follwer机器进行原子传播。从而保证数据的一致性。2.Zookeeper的一致性不是强一致性,而是最终一致性。但是客户端可以通过sync()来强制读取最新的数据。3.正常情况下leader是可以接受客户端的读写服务的,但是如果想让leader专注于集群之间的协调,...原创 2019-04-08 21:53:54 · 402 阅读 · 0 评论 -
Zookeeper 的集群选举机制
Zookeeper默认的算法是FastLeaderElection, 采用投票数大于半数则胜出的逻辑。选举依据:服务器ID:比如有3台服务器, 编号分别为 1, 2, 3。编号越大,在选举算法中的权重越大。选举状态:LOOKING,竞选状态。...原创 2019-04-07 19:37:23 · 1307 阅读 · 0 评论