Rachel_Channing-CSDN博客

原创 Spark SQL操作hive报错处理

Spark SQL操作hive报错处理总结：1：启动hive的metastore服务2：报错后加入依赖包spark-hive_2.123：创建SparkSession加入.enableHiveSupport()背景通过spark SQL访问hive上的表数据。准备工作将hive-site.xml文件，放入IDEA程序的resource目录下主程序object SparkSql...

2020-04-21 11:30:06 1018

原创 Spark Streaming程序将统计结果写入本地文件系统

背景需要实时接收kafka topic中的消息，经spark streaming进行统计分析后，将统计结果写到本地文件系统，经由FTP发送给下游。难点在于，Spark Streaming的程序提交到yarn或者mesos是分布式执行的，多个executor是运行在不同的机器上，统计结果要求写在一个指定的机器目录下。思路思路1：是否可以将FTP发往下游的操作在spark应用程序中也...

2019-10-24 16:21:33 1430

原创 StreamingListener-监控流式处理-更新广播变量-利器

SparkStreaming中常常遇到需要监控每个批次的运行情况，当出现不正常的情况需要及时反馈。就需要用到org.apache.spark.streaming.scheduler.StreamingListener这个类来进行处理。一下为其源码部分/** * :: DeveloperApi :: * A listener interface for receiving informa...

2019-10-24 15:48:28 693

原创 Spark Streaming处理kafka的数据落地HDFS

Spark Streaming处理kafka的数据落地HDFS背景生产上项目的数据从上游kafka topic下发过来，经过spark Streaming简单清洗处理后，下发到下一个kafka topic中，目前需要将清洗处理好的数据，按小时分区落地到HDFS上。要求，如果当前落地HDFS的程序断了，能按照消息下发kafka topic 的时间进行分区。实现思路1：在下发的kafka t...

2019-09-03 10:20:43 3573 1

原创定时更新广播变量

定时更新广播变量背景spark streaming在处理数据的时候，需要和一些小表做join,或者从小表中获取数据，通常我们会采用广播变量的方式将数据缓存到每个worker节点上，由此，数据在exec端被计算的时候，就不需要从driver端获取小表的数据，能有效减小网络通讯开销。提高执行效率。但是，广播变量是read-only的。生产上，我们的这些小表是要被定时更新的。那就意味着，如果...

2019-08-26 16:19:18 1853 2

原创 linux命令手册之基础篇

拿走拿走别客气~~，Xmind文件下载地址

2018-11-16 14:47:12 152

原创 spark core之spark运行架构

spark官网对此的解释相关概念理解Spark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called the driver program).可以被分为两点spark应用...

2018-11-16 10:23:13 179

原创 Cluster Manager Types------Standalone and Hadoop yarn

目录 Standalone模式模式使用场景：部署Standalone模式配置spark conf目录下的slaves文件配置JAVA_HOME验证Hadoop Yarn模式模式使用场景WEB页面判断当前提交应用程序状态deploy modecluster modeclient mode查看yarn的log日志报错在查验yarn的lo...

2018-11-15 11:48:18 189

原创 Hive数据备份、导出、常用的查询、** by的使用

数据导出1:结果数据保存到本地文件中语法格式INSERT OVERWRITE LOCAL DIRECTORY directory1 [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0) SELECT ... FROM ... e g...

2018-10-17 20:48:52 3056 3

原创 Yarn调优

1.Yarn常用命令:[rachel@bigdata-senior01 bin]$ ./yarnUsage: yarn [--config confdir] COMMANDwhere COMMAND is one of: resourcemanager run the ResourceManager nodemanager run a nodemana...

2018-10-15 10:40:19 1193

原创 Linux在hadoop中常用的命令

1：删掉.cmd文件rm -r ./*.cmd2：全局搜索带"example"的jar包find / -name "*.example*.jar"3：搜索一个文件中的指定文字cat **.sh |grep ***4：查看系统内存使用情况[rachel@bigdata-senior02 hadoop]$ free -m total ...

2018-10-15 09:51:19 1926

原创 Hive中数据库的操作和表的操作总结

数据库操作1：创建数据库语法：CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];e g:hiv...

2018-10-14 19:58:18 1480

原创 Hive常用的属性配置项

Tips:CDH版本的hive没有hive-default.xml等没有default文件1:hive数据仓库位置配置官网的解释： hive.metastore.warehouse.dir Default Value: /user/hive/warehouse Added In: Hive 0.2.0 Location of default database for the w...

2018-10-14 17:06:11 1144

转载 Linux之权限篇

[rachel@bigdata-senior02 ~]$ ls -ltotal 64-rwxrw-r‐-1 root root 1213 Feb 2 09:39 abc第一个字符代表文件（-）、目录（d），链接（l）其余字符每3个一组（rwx），读（r）、写（w）、执行（x）第一组rwx：文件所有者的权限是读、写和执行第二组rw-：与文件所有者同一组的用户的权限是读、写但不能...

2018-10-14 16:02:57 260

原创 Hive初步使用

目录概述架构1:用户接口 client2:元数据（Metastore）3:hadoop4:DriverHive的优点和使用场景Hive的常用命令1:show databases;2:create database rachel_db_hive;3:drop database db_hive;4:use rachel_db_hive;5:创建...

2018-10-14 15:47:46 466

原创 SparkSql 之ThriftServer和Beeline的使用

概述ThriftServer相当于service层，而ThriftServer通过Beeline来连接数据库。客户端用于连接JDBC的Server的一个工具步骤1：启动metastore服务./sbin/start-thriftserver.sh2：连接[rachel@bigdata-senior01 spark-2.2.0-bin]$ ./bin/beeline ...

2018-10-14 10:37:13 595

原创 MapReduce过程分析

1:MapReduce概述Mapreduce分成两部分Map()---映射 (元素个数是不变的) 映射成键值对的结构映射的条件是一一对应的。 x--->(x,1) y--->(y,1)Reduce()---归约（元素个数是减少的）对于key相同的元素，找出来,值进行相加。 x--->(x,1) x--->(x,1) -->&gt...

2018-10-13 22:54:53 187

原创 MapReduce的Shuffle过程

整个MapReduce的运行过程input --> map --> shuffle -->reduce --->output以wordcount数据模型为例Map的输出数据模式如下：<hadoop,1><spark,1>以<key,value>对的形式存在因为map阶段是对整个文件中的每一个元素进行处理，对于Map的输出量...

2018-10-09 14:59:35 276

原创 Spark Streaming第三部分

updateStateByKey算子需求，统计到目前为止，累计出现的单词个数(需要保持之前的状态)def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = { val newCount = ... // add the new values with the previou...

2018-10-01 20:45:31 156

原创 Spark Streaming 第二部分

Streaming ContextTo initialize a Spark Streaming program, a StreamingContext object has to be created which is the main entry point of all Spark Streaming functionality.构造方法 /** * Create ...

2018-10-01 15:20:08 206

原创 Spark Streaming 第一部分

Spark 概述Spark Streaming是基于Spark core API的扩展，支持高吞吐，可扩展，容错的。Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live d...

2018-10-01 15:16:43 434

原创 Spark运行模式之Spark on Yarn

Spark的四种运行模式特点：不管使用什么模式，Spark应用程序的代码是一样的，只需要通过参数--master来指定local standalone 是spark自带的，如果一个集群式standalone模式，那么就需要在堕胎机器上同时部署spark环境 yarn，统一使用YARN进行整个集群作业的资源调度 mesosSpark ON Yarn 概述 spark支持可插拔的...

2018-09-30 09:24:03 1137

原创 Windows系统下MySQL的安装配置以及遇到的问题

1：在官网下载mysql软件包https://dev.mysql.com/downloads/mysql/下载window版本的软件包2；配置mysqlini,其中basedir，和datadir需要按照自己的安装路径进行修改[mysql]# 设置mysql客户端默认字符集default-character-set=utf8[mysqld]# 设置3306端口port ...

2018-09-29 17:29:51 1466

原创基于SparkSql的日志分析实战

目录日志数据内容用户行为日志分析的意义离线数据处理流程需求分析数据清洗解析访问日志使用github上的开源项目对日志进行统计分析统计最受欢迎的TOPN的视频访问次数按照地市统计imooc主站最受欢迎的TOPN课程按流量统计imooc主站最受欢迎的TOPN课程调优点EChart展示图形化界面静态数据展示动态数据展示日志数据内容访问...

2018-09-29 09:18:25 3800 2

什么是RDD:Spark提供了一个抽象的弹性分布式数据集，是一个由集群中各个节点以分区的方式排列的集合，用以支持并行计算。RDD在驱动程序调用hadoop的文件系统的时候就创建（其实就是读取文件的时候就创建），或者通过驱动程序中scala集合转化而来，用户也可以用spark将RDD放入缓存中，来为集群中某台机器宕掉后，确保这些RDD数据可以有效的被复用。总之，RDD能自动从宕机的节点中恢复过来。...

2018-09-17 16:03:56 6442 1

原创 Flume的安装部署

1：下载Flume（啊，都贴腻了。。。。。）CDH版本：http://archive.cloudera.com/cdh5/cdh/5/官网版本：http://flume.apache.org/FlumeUserGuide.html#hbasesink2：解压tar -zxf flume-ng-1.6.0-cdh5.10.0.tar.gz -C /opt/mouldes/删掉解...

2018-09-13 14:56:40 120

原创 HBase的shell客户端操作

1：DDL,DML的一些操作命令集合Group name: ddlCommands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled,...

2018-09-13 14:30:44 1177

原创 HBase的安装部署

1：下载CDH版本的Hbasehttp://archive.cloudera.com/cdh5/cdh/5/2：解压[rachel@bigdata-pro01 softwares]$ chmod u+x hbase-0.98.6-cdh5.3.0.tar.gz[rachel@bigdata-pro01 softwares]$ tar -zxf hbase-0.98.6-cdh5.3.0....

2018-09-13 14:24:09 152

原创 Kafka分布式集群部署

1：概念和特点>>是一个消息队列，符合先进先出的原则，它是一个处理流数据的消息系统>>实时高效的流处理，也就要求支持高吞吐量，需要支持多并发的消费者消费>>分布式集群，存储在kafka上的数据，和HDFS一样，有副本机制。>>依赖分布式协调服务zookeeper，包括hadoop生态圈中的HDFS,yarn,Hbase都要依赖zook...

2018-09-13 14:05:37 4572

原创 HDFS的高可用部署教程

1：官网中有给出详细的操作步骤，可以查看如下链接：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html2：hdfs-site.xml中的配置以及解释： <configuration...

2018-09-11 19:21:51 731

原创 ZooKeeper的安装部署

1：下载安装包和hadoop的下载一样，分为官网版本和CDH版本官网下载链接为:http://archive.apache.org/dist/zookeeper/2：解压[root@bigdata-pro01 softwares]# tar -zxf zookeeper-3.4.5.tar.gz -C /opt/modules/Tips:df命令可以查看磁盘的使用情况[...

2018-09-10 22:46:40 147

原创 hadoop安装配置教程&&HDFS的相关操作

1：下载Hadoop。可以下载CDH版本，还有普通版本。他们的区别在与CDH在版本兼容方面出色CDH版本的下载地址为：http://archive.cloudera.com/cdh5/cdh/5/普通hadoop的下载地址：http://archive.apache.org/dist/hadoop/core/可以选择用wget在linux中下载，也可以选择下载到windows目...

2018-09-10 13:11:30 231

原创 Linux基础设置

下载Centos6.4版本的系统1：修改IP地址（System-->Preferences-->NetworkConnections）2；添加用户[root@localhost ~]# adduser hadoop[root@localhost ~]# passwd hadoopChanging password for user hadoop.New pass...

2018-09-09 22:44:10 235

原创 YARN的工作原理详解

YARN是一个集群资源的管理与任务调度的分布式框架官网解释如下：Hadoop YARN: A framework for job scheduling and cluster resource management.YARN的工作原理YARN架构图1.客户端提交应用程序给ResourceManager2.ResouceManager会生成ApplicationMaster...

2018-09-09 17:04:16 2337 1

原创 HDFS分布式文件系统简单介绍

解决问题：海量数据的存储 -> 分布式架构设计分布式-特点：集群，多台机器共同协作完成主从架构设计 1.namenode - 主节点 - 领导存储文件的元数据包括的内容如下：>>>文件的名称>>>文件的位置...

2018-09-09 16:36:25 959

原创 hadoop概述

1：什么是hadoop 官网上关于hadoop的解释是： The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. >>开源的 >>可靠的可以及时进行数据备份 ...

2018-09-09 16:35:33 282