- 博客(13)
- 资源 (2)
- 收藏
- 关注
转载 spark内存计算框架(1)
spark内存计算框架1. spark是什么2. spark的四大特性2.1 速度快2.2 易用性2.3 通用性2.4 兼容性3. spark集群架构4. spark集群安装部署5. spark集群的启动和停止5.1 启动5.2 停止6. spark集群的web管理界面7. 初识spark程序7.1 普通模式提交 (指定活着的master地址)7.2 高可用模式提交 (集群有很多个master)8. spark-shell使用8.1 运行spark-shell --master local[N] 读取本地文
2020-05-28 10:36:16 1790
原创 Hbase基础入门
HBase1. HBase是什么1.1 HBase的概念1.2 HBase的特点2. HBase集群安装部署2.1 准备安装包2.2 修改HBase配置文件2.2.1 hbase-env.sh2.2.2 hbase-site.xml2.2.3 regionservers2.2.4 back-masters2.3 分发安装包2.4 创建软连接2.5 添加HBase环境变量2.6 HBase的启动与停止2.7 访问WEB页面2.8 停止HBase集群3. HBase表的数据模型3.1 rowkey行键3.2 C
2020-05-13 12:57:31 838
原创 centos7当中安装mysql5.7版本
1.开启centos7服务器,并切换到root用户在CentOS7中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQL,而且安装完成之后可以直接覆盖掉MariaDB。将我们的centos7切换到root用户方便我们的mysql的安装2.下载并安装官方的mysql的yum源使用root用户在centos7服务器的/zsc/soft路径下执行以下命令cd /zsc/soft/yum -y install wgetwget -i -c http://dev.m
2020-05-11 20:33:27 551
原创 hive综合案例实战
hive综合案例实战1、需求描述2、项目表字段2,1 数据结构3、ETL原始数据清洗4、项目建表并加载数据4.1 创建表4.2 导入ETL之后的数据(ODS层 textfile)4.3 向ORC表插入数据(DW层 ORC + snappy)5、业务分析5.1 统计视频观看数Top105.2 统计视频类别热度Top105.3 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数5.4 统计视频观看数Top50所关联视频的所属类别排名5.5 统计每个类别中的视频热度Top10,以Music
2020-05-11 19:53:42 1813
原创 数据仓库工具之hive调优(4)
大数据分析利器之hive1. hive表的文件存储格式1.1 列式存储和行式存储1.2 TEXTFILE格式1.3 ORC格式1.4 PARQUET格式1.5 主流文件存储格式对比实验1.5.1 TextFile1.5.2 ORC1.5.3 Parquet2、存储和压缩结合2.1 创建一个非压缩的的ORC存储方式2.2 创建一个SNAPPY压缩的ORC存储方式3. hive的SerDe3.1 hive的SerDe是什么3.2 hive的SerDe 类型3.3 企业实战3.3.1 通过MultiDelimi
2020-05-11 12:19:43 488
原创 数据仓库工具之hive(3)
大数据分析利器之hive(3)1、hive的参数传递1.1 Hive命令行hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明:1、 -i 从文件初始化HQL。2、 -e从命令行执行指定的HQL3、 -f 执行HQL脚本4、 -v 输出执行的HQL语句到控制台5、 -p connect to Hive Server on por
2020-05-10 20:41:34 801
原创 数据仓库工具之hive(2)
大数据分析利器之hive1、hive的分桶表2、Hive修改表结构2.1 修改表的名称2.2 表的结构信息2.3 增加/修改/替换列信息3. Hive数据导入1、直接向表中插入数据(强烈不推荐使用)2、通过load方式加载数据(必须掌握)3、通过查询方式加载数据(必须掌握)4、查询语句中创建表并加载数据5、创建表时通过location指定加载数据路径6、export导出与import 导入 hive表数据(内部表操作)4、Hive数据导出4.1 insert 导出4.2、 Hive Shell 命令导出4.
2020-05-09 22:22:48 547
原创 数据仓库工具之hive(1)
大数据分析利器之hive1.数据仓库介绍1.1 数据仓库的基本概念1.2 数据仓库的主要特征1.3 数据仓库与数据库区别1.4 数据仓库分层架构2. hive介绍2.1 什么hive2.2 Hive与数据库的区别2.3 Hive的优缺点2.4 Hive架构原理3. Hive的安装部署4. hive的交互方式4.1 Hive shell交互4.2 Hive JDBC服务4.3 Hive的命令5 Hive的数据类型5.1 基本数据类型5.2 复合数据类型6 Hive的DDL操作6.1 hive数据库DDL操作
2020-05-08 22:24:01 669
原创 工作流调度oozie
工作流调度oozie1.什么是oozie2.oozie的架构3.安装oozie3.1 修改core-site.xml3.2 上传oozie的安装包并解压3.3 解压hadooplibs到与oozie平行的目录3.4 创建libext目录3.5 拷贝依赖包到libext3.6 添加ext-2.2.zip压缩包3.7 修改oozie-site.xml3.8 创建mysql数据库3.9 上传oozie依...
2020-05-08 12:58:28 540
原创 大数据整合利器之HUE
大数据整合利器之HUE1、HUE的基本介绍1.1 什么是HUE1.2 HUE网站链接1.3 Hue的架构1.4 HUE核心功能2、Hue的安装第一步:下载Hue的压缩包并上传到linux解压第二步:编译安装启动2.1、linux系统安装依赖包2.2、配置Hue2.3、创建mysql数据库2.4、准备进行编译2.5、linux系统添加普通用户hue2.6、启动hue进程2.7、页面访问3、hue与其...
2020-05-08 10:53:11 1037
原创 工作流调度器之Azkaban
Azkaban工作流调度器1. 为什么需要工流调度系统2. Azkaban是什么3. Azkaban基本架构4. Azkaban架构的三种运行模式5. Azkaban安装部署6. Azkaban启动6.1 启动web server服务6.2 启动executor执行服务7. Azkaban实战7.1 command类型单一job7.2 command类型多job工作流7.3 HDFS操作任务7.4...
2020-05-07 20:21:55 348
原创 数据迁移工具之Sqoop
数据迁移工具之Sqoop1. Sqoop是什么2. Sqoop的工作机制3. Sqoop基本架构4. Sqoop安装部署5. Sqooq数据的导入5.1 列举出所有的数据库5.2 导入数据库表数据到HDFS5.3 导入数据库表数据到HDFS指定目录5.4 导入数据库表数据到HDFS指定目录并且指定数据字段的分隔符5.5 导入关系表到Hive中5.6 导入数据库表数据到hive中(并自动创建hive...
2020-05-07 13:09:07 340
原创 Flume日志采集框架
Flume日志采集框架1. Flume是什么2. Flume的架构3. Flume采集系统结构图3.1 简单结构3.2 复杂结构4. Flume安装部署5. Flume实战5.1 采集文件到控制台5.2 采集文件到HDFS5.3 采集目录到HDFS5.4 两个agent级联6. 高可用配置案例6.1 failover故障转移6.2 load balance负载均衡7. flume企业案例7.1 f...
2020-05-07 11:38:09 408
学习git资料
2019-01-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人