2020年05月_Hansionz

05月 04月

转载 spark内存计算框架(1)

spark内存计算框架1. spark是什么2. spark的四大特性2.1 速度快2.2 易用性2.3 通用性2.4 兼容性3. spark集群架构4. spark集群安装部署5. spark集群的启动和停止5.1 启动5.2 停止6. spark集群的web管理界面7. 初识spark程序7.1 普通模式提交 (指定活着的master地址)7.2 高可用模式提交 (集群有很多个master）8. spark-shell使用8.1 运行spark-shell --master local[N] 读取本地文

2020-05-28 10:36:16 1790

原创 Hbase基础入门

HBase1. HBase是什么1.1 HBase的概念1.2 HBase的特点2. HBase集群安装部署2.1 准备安装包2.2 修改HBase配置文件2.2.1 hbase-env.sh2.2.2 hbase-site.xml2.2.3 regionservers2.2.4 back-masters2.3 分发安装包2.4 创建软连接2.5 添加HBase环境变量2.6 HBase的启动与停止2.7 访问WEB页面2.8 停止HBase集群3. HBase表的数据模型3.1 rowkey行键3.2 C

2020-05-13 12:57:31 838

原创 centos7当中安装mysql5.7版本

1.开启centos7服务器，并切换到root用户在CentOS7中默认安装有MariaDB，这个是MySQL的分支，但为了需要，还是要在系统中安装MySQL，而且安装完成之后可以直接覆盖掉MariaDB。将我们的centos7切换到root用户方便我们的mysql的安装2.下载并安装官方的mysql的yum源使用root用户在centos7服务器的/zsc/soft路径下执行以下命令cd /zsc/soft/yum -y install wgetwget -i -c http://dev.m

2020-05-11 20:33:27 551

原创 hive综合案例实战

hive综合案例实战1、需求描述2、项目表字段2,1 数据结构3、ETL原始数据清洗4、项目建表并加载数据4.1 创建表4.2 导入ETL之后的数据(ODS层 textfile)4.3 向ORC表插入数据(DW层 ORC + snappy)5、业务分析5.1 统计视频观看数Top105.2 统计视频类别热度Top105.3 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数5.4 统计视频观看数Top50所关联视频的所属类别排名5.5 统计每个类别中的视频热度Top10，以Music

2020-05-11 19:53:42 1813

原创数据仓库工具之hive调优(4)

大数据分析利器之hive1. hive表的文件存储格式1.1 列式存储和行式存储1.2 TEXTFILE格式1.3 ORC格式1.4 PARQUET格式1.5 主流文件存储格式对比实验1.5.1 TextFile1.5.2 ORC1.5.3 Parquet2、存储和压缩结合2.1 创建一个非压缩的的ORC存储方式2.2 创建一个SNAPPY压缩的ORC存储方式3. hive的SerDe3.1 hive的SerDe是什么3.2 hive的SerDe 类型3.3 企业实战3.3.1 通过MultiDelimi

2020-05-11 12:19:43 488

原创数据仓库工具之hive(3)

大数据分析利器之hive(3)1、hive的参数传递1.1 Hive命令行hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明：1、 -i 从文件初始化HQL。2、 -e从命令行执行指定的HQL3、 -f 执行HQL脚本4、 -v 输出执行的HQL语句到控制台5、 -p connect to Hive Server on por

2020-05-10 20:41:34 801

原创数据仓库工具之hive(2)

大数据分析利器之hive1、hive的分桶表2、Hive修改表结构2.1 修改表的名称2.2 表的结构信息2.3 增加/修改/替换列信息3. Hive数据导入1、直接向表中插入数据（强烈不推荐使用）2、通过load方式加载数据（必须掌握）3、通过查询方式加载数据（必须掌握）4、查询语句中创建表并加载数据5、创建表时通过location指定加载数据路径6、export导出与import 导入 hive表数据（内部表操作）4、Hive数据导出4.1 insert 导出4.2、 Hive Shell 命令导出4.

2020-05-09 22:22:48 547

原创数据仓库工具之hive(1)

大数据分析利器之hive1.数据仓库介绍1.1 数据仓库的基本概念1.2 数据仓库的主要特征1.3 数据仓库与数据库区别1.4 数据仓库分层架构2. hive介绍2.1 什么hive2.2 Hive与数据库的区别2.3 Hive的优缺点2.4 Hive架构原理3. Hive的安装部署4. hive的交互方式4.1 Hive shell交互4.2 Hive JDBC服务4.3 Hive的命令5 Hive的数据类型5.1 基本数据类型5.2 复合数据类型6 Hive的DDL操作6.1 hive数据库DDL操作

2020-05-08 22:24:01 669

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

HanSion.Z

转载 spark内存计算框架(1)

原创 Hbase基础入门

原创 centos7当中安装mysql5.7版本

原创 hive综合案例实战

原创数据仓库工具之hive调优(4)

原创数据仓库工具之hive(3)

原创数据仓库工具之hive(2)

原创数据仓库工具之hive(1)

原创工作流调度oozie

原创大数据整合利器之HUE

原创工作流调度器之Azkaban

原创数据迁移工具之Sqoop

原创 Flume日志采集框架

剑指offer 解析

学习git资料

空空如也