大数据
文章平均质量分 97
靛蓝忆
这个作者很懒,什么都没留下…
展开
-
pyspark提交任务依赖模块的解决方案
直接提交单个py文件 spark-submit --deploy-mode client --driver-memory 2G --executor-memory 2G --executor-cores 3 --num-executors 3 --properties-file /etc/spark/conf/spark-defaults.conf test.py依赖helper中的代码test.pyfrom helper.util_helper import sub_namedata_原创 2020-12-01 16:55:37 · 1407 阅读 · 0 评论 -
Spark基础解析
文章目录安装【Standalone】2.4 配置Spark【Standalone】2.5 配置Job History Server【Standalone】2.6 配置Spark HA【Standalone】【Yarn】配置Spark【Yarn】执行Spark程序执行第一个spark程序(standalone)执行第一个spark程序(yarn)Spark应用提交启动Spark Shell启动Spa...原创 2019-02-12 16:35:09 · 559 阅读 · 0 评论 -
Flume使用
文章目录一、Flume简介二、Flume角色三、Flume传输过程四、Flume部署及使用4.1、文件配置4.2、案例4.2.1、案例一:监控端口数据4.2.2、案例二:实时读取本地文件到HDFS4.2.3、案例三:实时读取目录文件到HDFS4.2.4、案例四:Flume与Flume之间数据传递:单Flume多Channel、Sink,4.2.5、案例五:Flume与Flume之间数据传递,多Fl...原创 2019-02-16 22:04:43 · 458 阅读 · 0 评论 -
SparkSQL应用解析
文章目录第1章 Spark SQL概述1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 Dataframe1.2.3 Dataset1.2.4 三者的共性1.2.5 三者的区别第2章 执行SparkSQL查询2.1 命令行查询流程2.2 IDEA创建SparkSQL程序第3章 SparkSQL解析3.1 新的起始点SparkSession3.2 创建Da...原创 2019-02-15 17:01:54 · 747 阅读 · 0 评论 -
SparkCore应用解析
文章目录RDD概念RDD概述什么是RDDRDD的属性1.3 RDD弹性1.4 RDD特点1.4.1 分区1.4.2 只读1.4.3 依赖1.4.4 缓存1.4.5 checkpoint第2章 RDD编程2.1 编程模型2.2 创建RDD2.3 RDD编程2.3.1 Transformation2.3.2 Action2.3.3 数值RDD的统计操作2.3.4 向RDD操作传递函数注意2.3.5 ...原创 2019-02-14 17:07:23 · 446 阅读 · 0 评论 -
hive安装和基本操作(二)
文章目录查询基本查询(Select…From)全表和特定列查询列别名常用函数Limit语句Where语句Like和RLike分组Group By语句Having语句Join语句等值Join表的别名内连接左外连接右外连接满外连接连接谓词中不支持or排序全局排序(Order By)每个MapReduce内部排序(Sort By)分区排序(Distribute By)Cluster By分桶及抽样查询分...原创 2019-01-25 16:27:24 · 326 阅读 · 0 评论 -
hive安装和基本操作(一)
文章目录hive的基本概念hive的优缺点优点缺点Hive架构原理Hive安装环境准备Hive安装部署将本地文件导入Hive案例MySql安装安装包准备安装MySql服务器安装MySql客户端MySql中user表中主机配置Hive元数据配置到MySql驱动拷贝配置Metastore到MySqlHive常用交互命令Hive其他命令操作Hive常见属性配置Hive数据仓库位置配置查询后信息显示配置H...原创 2019-01-25 15:22:47 · 7744 阅读 · 1 评论 -
HBase的安装和使用
文章目录HBaes介绍1.1、HBase的起源1.2、HBase的角色1.2.1、HMaster1.2.2、RegionServer1.3、HBase的架构HBase部署与使用2.1、部署2.1.1、Zookeeper正常部署2.1.2、Hadoop正常部署2.1.3、HBase的解压2.1.4、HBase的配置文件2.1.5、HBase需要依赖的Jar包2.1.6、HBase软连接Hadoop配...原创 2019-01-05 12:05:10 · 497 阅读 · 0 评论 -
Kafka环境搭建和实战
Kafka集群部署环境准备集群规划Kafka集群部署Kafka命令行操作Kafka工作流程分析Kafka生产过程分析写入方式分区(Partition)副本(Replication)写入流程Broker 保存消息存储方式存储策略Zookeeper存储结构Kafka消费过程分析消费模型API消费者组消费方式消费者组案例Kafka API实战环境准备Kafka生产者Java API创建生产者创建生产者...原创 2018-12-29 11:17:45 · 548 阅读 · 0 评论 -
MapReduce
MapReduce框架原理MapReduce工作流程InputFormat数据输入Job提交流程和切片源码详解FileInputFormat切片机制CombineTextInputFormat切片机制InputFormat接口实现类自定义InputFormatMapTask工作机制并行度决定机制MapTask工作机制Shuffle机制Shuffle机制Partition分区WritableCom...原创 2018-11-23 17:58:50 · 269 阅读 · 0 评论 -
HDFS HA高可用
目录HA概述HDFS-HA工作机制HDFS-HA工作要点HDFS-HA自动故障转移工作机制HDFS-HA集群配置环境准备规划集群配置Zookeeper集群配置HDFS-HA集群启动HDFS-HA集群配置HDFS-HA自动故障转移YARN-HA配置YARN-HA工作机制配置YARN-HA集群HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可...原创 2018-11-21 17:46:35 · 208 阅读 · 1 评论 -
Hadoop编译源码
目录前期准备工作jar包安装编译源码常见的问题及解决方案前期准备工作1)CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2)jar包准备(hadoop源码、JDK7 、 maven、 ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk...原创 2018-11-21 14:18:51 · 155 阅读 · 0 评论 -
Hadoop运行环境搭建
目录Hadoop运行环境搭建虚拟机网络模式设置为NAT克隆虚拟机修改为静态ip修改主机名关闭防火墙在opt目录下创建文件安装jdk安装HadoopHadoop运行模式本地运行Hadoop 案例官方grep案例官方wordcount案例伪分布式运行Hadoop案例启动HDFS并运行MapReduce程序YARN上运行MapReduce 程序配置临时文件存储路径配置历史服务器配置日志的聚集配置文件说明...原创 2018-11-21 11:47:27 · 1558 阅读 · 0 评论