![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
big data
文章平均质量分 88
博主正在学习大数据相关知识,希望能有所进步,想通过博客记录自己学习的点滴,为以后的回顾总结进行积累,也希望能帮助到别人。
秀菜菜不菜
这个作者很懒,什么都没留下…
展开
-
spark更新中
基于内存,通用、可扩展的计算引擎基于mr算法实现分布式计算不同之处时job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,更好地适用于数据挖掘与机器学习,后期需要使用spark对接外部地数据源。特征速度快采用最先进的DAG调度算法原因基于内存:job结果可以保存在内存中,但是也会产生shuffle阶段任务以线程方式易用性可通过不同礼物通用性是一个生态系统,包含很多模块sparksql:通过sql去开发spark程序做离线分析sparkStreaming:主要用来解决原创 2021-07-13 00:49:58 · 71 阅读 · 1 评论 -
7 scala
在交互式解释器中,先输入paste,然后写多行代码,按ctrl d结束输入变量声明//val/var 变量名称:变量类型 = 初始值//val值不可修改//var可重新赋值val a:Int = 10val c =20 //变量的类型可以是显式的类型也可以不声明,支持类型推断。//惰性变量lazy,实现延迟加载(懒加载)//不可变变量 只有在调用惰性变量时才会实例化这个变量//lazy val 变量名 = 表达式基础类型类型说明Byte8位带符号整数Shor原创 2021-03-27 15:05:33 · 115 阅读 · 0 评论 -
6数据仓库
warehouse面向主题的、集成的、非易失的、随时间变化的。what面向主题数据是按照一定主题域进行组织。主题是抽象的概念,是指用户使用数据仓据进行决策时所关心的重点方面。例如:银行的数据仓库主题:客户客户数据来源:银行储蓄数据库、信用卡数据库等进行整合,操作型数据库的数据组织相向事务处理任务,各个业务系统之间各自分离。集成数据库之间互相独立,往往异构,数据仓库的数据对原有分散的数据库数据抽取、清理的基础上,加工整合得到,必须消除数据的不一致性,保证全局一致性。从面向应用到面向主题。原创 2021-03-23 12:41:54 · 324 阅读 · 1 评论 -
5 flume sqoop azkaban
flume在一个完整的离线大数据处理系统中,除了hdfs+mr+hive组成的分析系统的核心,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,在hadoop生态系统中都有便捷的开源框架。Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包、文件、文件夹、kafka等各种形式的源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。核心的角色agent,flume采集系原创 2021-03-14 14:00:55 · 117 阅读 · 0 评论 -
3.HBase
HBase建立在HDFS之上,提供高可靠性、高性能列存储、列存储、可伸缩、实时读写的分布式数据库系统。实时读写、随机访问。海量存储:可以存储大批量数据列式存储极易扩展高并发稀疏:列为空不占用存储空间数据的多版本:版本号式插入数据的时间戳数据类型单一:所有数据在Hbase中以字节数组存储HBase的数据模型rowkey行键table的主键,table中的记录也是按照rowkey字典序进行排序的。Column Family列族HBase的每个列,都归属于某个列族列族是表的原创 2021-03-14 11:08:46 · 121 阅读 · 2 评论 -
4 ZooKeeper
What?chubby的一个开源实现版主从架构的分布式框架,对娶她的分布式 框架提供协调服务。提供类似linux文件系统(有目录节点树)的简版文件系统来存储数据。维护和监控存储数据的状态变化,通过监控到达基于数据的集群管理主要用来解决分布式集群中应用系统的一致性问题leader为主,follower为从zKCli命令行# 启动ZooKeeper集群;在ZooKeeper集群中的每个节点执行此命令${ZK_HOME}/bin/zkServer.sh start# 停止ZooKeepe原创 2021-03-11 19:37:03 · 219 阅读 · 0 评论 -
2.Hive
数据仓库Data Warehouse可简称DW或者DWH目的:构建面向分析的集成化数据环境,出于分析性报告和决策支持的目的而创建。仓库:数据来源于外部,并且开放给外部应用,不生产小号数据,不是工厂。特征面向主题subject-oriented集成的integrated非易失的non-volatile时变的time-variant数据集合数据仓库和数据库的区别操作型处理,也叫联机事务处理OLTP(on-line transaction processing)也可称面向交易的处理系统。针对原创 2021-03-11 09:46:23 · 146 阅读 · 0 评论 -
1.hadoop整理
HDFS分布式文件系统2003、2004年谷歌发表的两篇论文:分布式文件系统(GFS),可用于处理海量网页的存储。分布式计算架构mapreduce,用于处理海量网页的索引计算问题。hadoop由三个模块组成:分布式存储HDFS 分布式计算MapReduce 资源调度引擎Yarn关键词:分布式 主从架构HDFS模块:namenode:主节点,主要负责集群的管理以及元数据信息管理(整个文件系统的元数据,以及每个路径文件所对应的数据块信息)datanode:从节点,主要负责存储用户数据s原创 2021-03-10 00:05:17 · 135 阅读 · 0 评论