- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 spark之初体验
今天,boss问我接触过spark没有 。。。。。。 好的我回去学!! 今天给大家介绍一一下spark Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala ...
2018-09-03 19:48:34 276
原创 hive的mysql元数据库
hive的安装 今天就简单的说一下hadoop2.系列hive的安装,一般hive的安装默认是有一个本地的数据库derby当中hive的元数据库,但是这种情况下只可以但用户单会话操作,使用起来不方便,但是可以用来前期的学习。这里不做介绍直接说明利用本地的mysql数据库来扮演hive的元数据库在hive的安装目录下conf下如果有的话就修该,如果没有就自己新建一个hve-site.xml文件 这...
2018-10-09 14:36:39 517 2
转载 etl讲解
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。...
2018-09-03 19:35:50 233
转载 lsof命令
lsof命令用于查看你进程开打的文件,打开文件的进程,进程打开的端口(TCP、UDP)。找回/恢复删除的文件。是十分方便的系统监视工具,因为lsof命令需要访问核心内存和各种文件,所以需要root用户执行。 在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都...
2018-08-21 19:01:56 356
hadoop2.0flume简介及安装
2018-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人