大数据
文章平均质量分 71
程序员杂谈
自我评价
诚实信用 勤奋刻苦 有较强的组织能力和团队意识
责任心强 有创新精神 自学能力较好
精通seo优化
展开
-
kafka基本信息
1、基本信息 1)Kafka组成:zk里面存储broker信息 消费者信息 唯独没有生产者信息。 2)搭建多少台Kafka:2(生产者峰值生产速率 * 副本/100)+1 =3 2 * ( 生产者峰值生产速率* 2/100)+1=3 =>生产者峰值生产速率<50m/s 50m/s*60秒=3g 3)副本数:2个居多、3个 好处:提高可靠性;坏处:增加了网络IO...原创 2022-03-05 18:54:15 · 3051 阅读 · 0 评论 -
flink-watermark
概念流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指Flink接收到的事件的先后顺序不是严格按照事件的EventTime顺序排列的。流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由...原创 2021-07-25 11:03:11 · 205 阅读 · 0 评论 -
RDD的常用转换算子和行动算子
-转换算子Transformation *转换算子执行完毕之后,会创建新的RDD,并不会马上执行计算 *map 对RDD中的元素进行一个个映射 *mapPartitions 以分区为单位,对RDD中的元素进行映射 *mapPartitionsWithIndex 以分区为单位,对RDD中的元素进行映射,并且带分区编号 *flatMap ...原创 2021-06-06 11:57:38 · 1199 阅读 · 0 评论 -
函数式编程
解决问题时,将问题分解成一个一个的步骤,将每个步骤进行封装(函数),通过调用这些封装好的步骤,解决问题。例如:请求->用户名、密码->连接jdbc->读取数据库Scala语言是一个完全函数式编程语言。万物皆函数函数和方法的区别1)核心概念(1)为完成某一功能的程序指令(语句)的集合,称为函数。(2)类中的函数称之方法。案例实操(1)Scala语言的语法非常灵活,可以在任何的语法结构中声明任何的语法(2)函数没有重载和重写的概念;方法可以进行重载和重写(3)scala中原创 2021-03-09 11:42:14 · 263 阅读 · 0 评论 -
scala语言介绍
什么是Scalascala(Scalable Language)是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(java虚拟机上),并兼容现有的Java程序。面向对象(将对象当作参数传来传去) + 面向函数(方法,可以将函数当作参数传来传去)为什么要学Scala优雅:这是框架设计师第一要考虑的速度快Spark就是使用Scala编写的,因此为了更好的学习Spark,需要掌握Scala这门语言=Spark的兴起,带动Scala语言的原创 2021-02-20 12:08:56 · 9926 阅读 · 0 评论 -
kafka相关概念
1.Kafka中的ISR、AR又代表什么?ISR:与leader保持同步的follower集合AR:分区的所有副本2.Kafka中的HW、LEO等分别代表什么?LEO:没个副本的最后条消息的offsetHW:一个分区中所有副本最小的offset3.Kafka中是怎么体现消息顺序性的?每个分区内,每条消息都有一个offset,故只能保证分区内有序。4.Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么?拦...原创 2021-01-30 15:47:05 · 189 阅读 · 0 评论 -
YARN调度器(Scheduler)
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。YARN架构如下:ResourceManager(RM):负责对各NM上的资源进行统一管理和调度,将AM分配空闲的Container运行并监控...原创 2020-12-15 14:08:55 · 293 阅读 · 1 评论 -
hadoop常用命令
常用命令实操2.3.1 准备工作1)启动Hadoop集群[root@hadoop2 hadoop-3.1.3]$ sbin/start-dfs.sh[root@hadoop3 hadoop-3.1.3]$ sbin/start-yarn.sh2)-help:输出这个命令参数[root@hadoop2 hadoop-3.1.3]$ hadoop fs -help rm2.3.2 上传1)-moveFromLocal:从本地剪切粘贴到HDFS[root@hadoop2 hadoop-3.1.3原创 2020-11-17 11:39:09 · 360 阅读 · 0 评论 -
大数据技术生态体系学习
大数据技术的核心是什么?Hadoop生态体系! Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构, 主要解决海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop 生态圈。1. Sqoop:sqoop 是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到Hadoop 的 HDFS 中,也可以将 HDFS原创 2020-11-12 14:11:55 · 340 阅读 · 0 评论 -
什么是数据湖
01 什么是数据湖如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。企业对数据湖寄予厚望,希望它能帮助用户快速...转载 2019-11-12 10:37:25 · 4704 阅读 · 1 评论 -
安全协议
IPSec 协议简述在 TCP/IP 协议中,对 IP 数据包没有提供任何安全保护,攻击者可以通过网络嗅探、 IP欺骗、连接截获等方法来攻击正常的 TCP/IP 通信。因此,通信过程中会存在以下危险:数据并非来自合法的发送者、数据在传输过程中被非法篡改、信息内容已被人窃取等。IPSec(IP Security)协议把密码技术应用在网络层,以向信息的发送方和接收方提供源地址验证、数据传...原创 2019-08-27 11:14:40 · 931 阅读 · 0 评论 -
软件架构质量属性(二)
可修改性及其实现战术对于可修改性一般场景的图示及可修改性具体场景,读者可仿照前面可用性的描述方式, 自行练习。(2)可修改性战术。包括局部化修改、防止连锁反应、推迟绑定时间。 ① 局部化修改。在设计期间为模块分配责任,以便把预期的变更限制在一定的范围内,从而降低修改的成本。 维持语义的一致性:语义的一致性指的是模块中责任之间的关系,使这些责任能够协同工作,不需要过多地依赖其他模块。耦合...原创 2019-06-26 11:35:25 · 965 阅读 · 0 评论 -
Chuwa 数据采集与分析框架
Chuwa是Yahoo!贡献给Apache的基于Hadoop开发的数据采集与分析的框架,用来支持大型分布式系统的海量日志的收集与分析工作,它具有良好的适用性和可扩展性,天生支持与MapReduce协同进行数据处理,能提供完整的数据收集与分析的解决方案。Chuwa主要由5个关键部分构成: 1.Agent运行在每个节点之上,负责采集每个节点的原始数据,并发送数据给Collector。...原创 2019-03-05 12:47:34 · 1592 阅读 · 0 评论 -
大数据时代政府部门间信息资源共享策略探讨
转自公众号:电子政务智库 摘要:随着互联网的快速发展, 在我们还没有弄明白什么是云计算, 什么是互联网的时候, 大数据时代来了。大数据时代带来的变革影响着我们生活和工作的方方面面。而政府部门信息资源共享作为一种先进的管理模式, 在大数据时代背景下对政府部门信息的资源管理就变得特别重要。本文就大数据时代下政府部门信息资源共享问题进行分析, 寻求解决途径。 近几年来, 政府部门信息资源的共...转载 2019-02-13 08:56:56 · 3457 阅读 · 0 评论 -
年会特辑丨国策数据,决策智慧——政策数据库发布
转自公众号:国脉互联 电子政务智库人工智能赋能智慧政府研讨会在大数据快速发展与应用的时代,我们基于在政务服务和政企服务中积累的宝贵经验,结合当前数字政府建设以及营商环境深化过程中的政策服务需求,推出了国策这样一款产品,国策数据、决策智慧,产品的理念是要构建中国最全面、最及时、最权威的政策数据库。今天的分享从建设背景、总体介绍、平台特点、核心服务、服务清单五个方面展开。 一、建设背景...转载 2018-12-14 14:32:02 · 1014 阅读 · 0 评论