自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark之初体验

今天,boss问我接触过spark没有 。。。。。。 好的我回去学!! 今天给大家介绍一一下spark Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala ...

2018-09-03 19:48:34 253

原创 hive的mysql元数据库

hive的安装今天就简单的说一下hadoop2.系列hive的安装,一般hive的安装默认是有一个本地的数据库derby当中hive的元数据库,但是这种情况下只可以但用户单会话操作,使用起来不方便,但是可以用来前期的学习。这里不做介绍直接说明利用本地的mysql数据库来扮演hive的元数据库在hive的安装目录下conf下如果有的话就修该,如果没有就自己新建一个hve-site.xml文件这...

2018-10-09 14:36:39 488 2

转载 etl讲解

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。   ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。...

2018-09-03 19:35:50 212

转载 lsof命令

lsof命令用于查看你进程开打的文件,打开文件的进程,进程打开的端口(TCP、UDP)。找回/恢复删除的文件。是十分方便的系统监视工具,因为lsof命令需要访问核心内存和各种文件,所以需要root用户执行。 在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都...

2018-08-21 19:01:56 329

hadoop2.0flume简介及安装

Flume是日志抽取工具,可以将数据通过flume抽取到本地文件系统中、数据库中、HDFS中,还可以抽取到远端的服务区当中,比如华为北京分公司要将数据发送到华为的总部,做分析处理,所以就需要发送到远端服务器上,这个工具可以在我们日常练习中尝试进行安装

2018-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除