林潇飒-CSDN博客

原创 spark之初体验

今天，boss问我接触过spark没有。。。。。。好的我回去学！！今天给大家介绍一一下spark Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Spark 是在 Scala ...

2018-09-03 19:48:34 276

hive的安装今天就简单的说一下hadoop2.系列hive的安装，一般hive的安装默认是有一个本地的数据库derby当中hive的元数据库，但是这种情况下只可以但用户单会话操作，使用起来不方便，但是可以用来前期的学习。这里不做介绍直接说明利用本地的mysql数据库来扮演hive的元数据库在hive的安装目录下conf下如果有的话就修该，如果没有就自己新建一个hve-site.xml文件这...

2018-10-09 14:36:39 517 2

转载 etl讲解

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。...

2018-09-03 19:35:50 233

转载 lsof命令

lsof命令用于查看你进程开打的文件，打开文件的进程，进程打开的端口(TCP、UDP)。找回/恢复删除的文件。是十分方便的系统监视工具，因为lsof命令需要访问核心内存和各种文件，所以需要root用户执行。在linux环境下，任何事物都以文件的形式存在，通过文件不仅仅可以访问常规数据，还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等，系统在后台都...

2018-08-21 19:01:56 356

hadoop2.0flume简介及安装

Flume是日志抽取工具，可以将数据通过flume抽取到本地文件系统中、数据库中、HDFS中，还可以抽取到远端的服务区当中，比如华为北京分公司要将数据发送到华为的总部，做分析处理，所以就需要发送到远端服务器上，这个工具可以在我们日常练习中尝试进行安装

2018-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人