![](https://img-blog.csdnimg.cn/20200516162048456.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Big Data
大数据(big data)或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
Amireux___
这个作者很懒,什么都没留下…
展开
-
flume kafka storm
flume:分布式的日志收集系统。作用就是监控数据三个组件:agent=source+channel+sinksource:数据源 各种数据源。channel:在sink组件确保数据准确无误的送到目的地之后,暂时存在channel中的数据就会被清除,目的是为了保证数据的安全性。sink:下沉 把数据发送到某一个地方去 可以送到任何地方去。组件之间的数据传递方式:整体来说是通过flow(数据流)的形式传递数据。内部是通过很多个event传递数据。event是flume数据传递的最小单原创 2020-09-20 11:23:15 · 161 阅读 · 0 评论 -
Spark 环境搭建 RDD 算子 持久化 并行度 宽窄依赖 DAG的任务切割 运行及执行原理 共享变量 sparkSQL
离线分析对于一段时间的数据,进行收集,整理,分析,得出一定的结论这个结论会帮助人们做出一定的决策。不要求时限性。批处理方式在线(实时)分析必须要求时限性,在最短时间之内对输入的数据进行响应流处理方式spark对于大规模数据处理的快如闪电的统一的分析引擎作者:美国加州大学伯克利分校AMP(算法,机器,人)实验室目的:通过对算法,机器和人的大规模整合,展现大数据的应用特点:速度比MR快100X,即使使用磁盘快10X以上(理论值)快的原因:a.基于内存b.DAG..原创 2020-09-20 11:20:58 · 537 阅读 · 0 评论 -
scala 环境搭建 变量 值 数据类型 元组 表达式块 语句 函数 柯里化 集合 面向对象 隐式转换
scala(scalable的简写)scala是一个比较冷门的语言,不太被人们所知道为什么这么冷门的语言现在被我们使用很多的大数据的项目的源码是是用scala语言编写的。因为大数据技术不断被人们使用,所以scala也逐步被认知scala是一个基于JVM,多范式的一种类似于java的编程语言基于JVM:运行在java平台之上,并且有自己的scala解释器。多范式:范式:代表着一种规范c 面向过程的编程范式java 面向对象的编程范式scala 面向对象的编程范式 函数式编程范原创 2020-09-07 07:59:13 · 238 阅读 · 1 评论 -
hive&hbase知识点整合
hivehive是什么?基于hadoop的数据仓库通过类sql语句转换成MapReduce执行数据库与数据仓库的区别DDL关于数据库和表结构的操作create drop alter showDML关于表内数据的操作insert select几种数据的导入导出方式1.insert intotable values(…)2.load data[local] inpath “” [overwrite] into table tbName3.insertinto/overwrit原创 2020-08-26 16:49:13 · 158 阅读 · 0 评论 -
hbase 表结构 环境搭建 hbase的操作 过滤器 hbase与hive的整合 hbase的rowkey设计原则
hbasehbase 是一款开源的,分布式的,版本化的,非关系型(NoSql)数据库NoSql = not only sqlhive是数据仓库,但是使用的是类sql语句hbase是数据库,但是不用sql语句特点:1.存储量大2.数据稀疏3.速度快:数据量比较大的情况下,不是特别慢。4.数据无类型(单一类型)应用场景:1.适合做海量数据的存和取2.如果数据量不超过千万级别,不建议使用hbase。3.hbase不适合做细腻的数据分析 wherehbase的表结构表(table):原创 2020-08-26 16:37:26 · 270 阅读 · 0 评论 -
hive 常用命令 DDL DML 验证数据 加载数据 内部表和外部表 分区 分桶 数据类型 表连接 排序 函数 jdbc
hive:基于hadoop的数据仓库数据库:真正存储和管理数据的,对数据有直接的处置权。关心的事情是在线事务过程(OLTP)数据仓库:可以通过一个或多个数据库读取数据做一些数据分析关心的事情是在线分析过程(OLAP)举例:数据库操作:下订单,待发货,已发货,待评价,。。。数据仓库操作:通过数据分析出销量,年龄段,性别,。。。hive为什么是基于hadoop的?1.logo的头是hadoop的头(勉强算一个理由)2.hive是存在与hadoop生态圈中的一个组件3.hive本身原创 2020-08-20 13:45:48 · 282 阅读 · 0 评论 -
大数据介绍 Hadoop 伪分布式 完全分布式 HDFS MapReduce yarn zookeeper
大数据数据:字母 数字 声音 影像等都是数据数据没有任何含义,仅代表一个符号。数据是信息的载体。信息:数据经过解释加工之后,赋予一定的含义。信息量:消除人们对不确定因素的大小大:1 数据量大基于非常非常大量的数据,甚至是海量数据才能给我们带来一定的价值。价值是从这些数据中挖掘出来的。2.大数据的技术在海量数据的基础上,必须产生能处理这么大数据量的技术。大数据:大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强原创 2020-08-10 16:57:32 · 967 阅读 · 0 评论 -
idea的使用 maven的使用
IDE开发工具idea和eclipse具体开发工具关系:eclipse中 一个project就是一个单独的工程,idea中 一个project也是一个工程,这个工程相当于eclipse里的workspace、module相当于eclipse里的project。maven:内行,专家项目构建工具能帮助我们做哪些事情:1.帮助我们标准化项目结构2.帮助我们管理依赖3.帮助我们打jar包项目结构的标准化:原创 2020-07-15 08:54:55 · 127 阅读 · 0 评论 -
Linux介绍及安装过程 常用的命令 对目录或文件的增删改查 压缩和解压缩 用户和权限 shell/shellScript linux的一些其他命令
什么是Linux?操作系统OS(Operation System):多用户:多任务:Linux与大数据的关系:Linux的特点:版本:Linux的安装:安装后创建新的虚拟机的步骤:删除虚拟机:linux的操作系统:界面版和最小安装版:远程连接工具(MobaXterm):常用命令:对目录或文件的增删改查:压缩和解压缩:用户和权限:su/sudo:shell:read:history:通配符管道符:输出重定向:shellScript:linux的一些其他命令:原创 2020-07-04 22:03:33 · 504 阅读 · 0 评论