大数据
大数据
得过且过1223
这个作者很懒,什么都没留下…
展开
-
Canal Scala API Demo
原理官方网站canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送dump 协议MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal )canal 解析 binary log 对象(原始为 byte 流)当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x安装mysql canall原创 2020-10-01 20:00:23 · 282 阅读 · 1 评论 -
scala之偏函数
一句话解释只对于偏爱的值进行处理,其他值不进行处理定义偏函数定义方式一【不推荐该方式】 val list1 = List(1, 2, 3, "a", true) // 实现 PartialFunction[输入类型,输出类型]{} val f = new PartialFunction[Any, Int] { // 只对返回true的时候交给apply处理 override def isDefinedAt(x: Any): Boolean = x.原创 2020-08-18 14:57:37 · 156 阅读 · 0 评论 -
Spark 基础知识点、三种模式安装
环境说明centos 7.5spark-2.1.1Spark 内置模块[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4F5IqC5c-1597227561772)(spark知识点/New Mockup 1.png)]Spark local 模式安装直接解压即可,无需配置(spark-2.1.1-bin-hadoop2.7.tgz 集成hadoop环境包 )local 模式下测试# 提交任务 使用spark案例 计算pibin/spark-submit -原创 2020-08-12 18:20:17 · 459 阅读 · 0 评论 -
Hive函数Demo3:排序函数
/*数据集孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文 94大海 数学 56大海 英语 84宋宋 语文 64宋宋 数学 86宋宋 英语 84婷婷 语文 65婷婷 数学 85婷婷 英语 78*/-- 创建表create table score(name string,subject string,score int)row format delimited fields terminated by "\t";--导入数据load data原创 2020-08-07 23:01:00 · 135 阅读 · 0 评论 -
Hive函数之窗口(开窗)函数
官方介绍LanguageManual WindowingAndAnalytics一句话解释开窗作用使用开窗函数可以在一个select语句中且不使用子查询的情况下,显示同一指标不同维度的数据。(这么说虽然片面,但是便于理解,实际开窗函数的作用远远超出该描述,具体请看下面案例理解)开窗函数格式格式:over(partition by 要分组字段**,order by** 要排序的字段 window_clause)其中 partition by ,order by ,window_clause 均为可原创 2020-08-07 21:35:49 · 953 阅读 · 0 评论 -
Hive函数Demo2:字符串拼接函数、炸裂函数、侧写、行专列、列转行
/* 相关函数*/-- 拼接字符串,输入多个字符串select concat('a','b','c');-- 拼接字符串并指定分隔符select concat_ws(',','a','b','c');-- 炸裂函数 拆分数组为一行多列 map为2行多列select explode(array('a','b','c'));-- 侧写 用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias-- 解释 用于和split, ex原创 2020-08-06 23:44:33 · 938 阅读 · 0 评论 -
Hive函数Demo1:基础常用函数
-- 查看说明desc function extended 函数名/**/。-- 返回时间戳select unix_timestamp();select unix_timestamp('2019-01-01 01:01:01');select unix_timestamp('20190101 010101','yyyyMMdd HHmmss');-- 时间戳转时间select from_unixtime(1546304461,'yyyy-MM-dd HH:mm:ss');-- 返回当原创 2020-08-06 19:48:26 · 139 阅读 · 0 评论 -
hive安装Tez计算引擎
环境CentOS 7hive 1.2.1apache-tez-0.9.1安装步骤上传taz到hdfs中hadoop fs -mkdir /tezhadoop fs -put apache-tez-0.9.1-bin.tar.gz /tez解压缩tar -zxvf apache-tez-0.9.1-bin.tar.gz -C /opt修改名称mv /opt/apache-tez-0.9.1-bin /opt/tez-0.9.1在hive/conf目录下创建tez-原创 2020-07-30 14:41:01 · 212 阅读 · 0 评论 -
Flume之JMX监控三种方式
监控作用在flume运行期间,我们可以通过监控channel当前容量和已使用容量来调整channel是否需要扩容通过source向channel中put成功了多少event和sink从channel中take成功了多少个event,比较数据是否存在积压做出调整(通过sink组,和batchsize参数可增加sink读取速度)监控原理通过Java提供的JMX技术(java monitor extension)即 java监控扩展模块,是J2EE定义的14种技术规范之一。JMX可以帮助我们监控一个原创 2020-07-22 21:58:35 · 1283 阅读 · 0 评论 -
Nginx生成日志案例
#user nobody;worker_processes 1;#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log info;#pid logs/nginx.pid;events { worker_connections 1024;}# load modules compiled as Dynamic Shared Objec.原创 2020-07-14 15:42:04 · 347 阅读 · 0 评论 -
Flume自定义source、interceptor、sink
官方文档SourceSinkMaven 依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.7.0</version></dependency>自定义Source代码import org.apache.flume.Con原创 2020-07-22 19:59:59 · 157 阅读 · 0 评论 -
kettle整合CDH hadoop、hive、hbase
环境说明Hadoop 2.6.0cdh5.14.0kettle 8.2准备工作设置hadoop文件系统权限查看hadoop文件系统方式一: 浏览器访问 hadoop namenode地址:50070端口方式二: 通过终端 hadoop fs -ls创建目录 hadoop fs -markdir -p /hadoop/test 查看用户是否有创建权限使用 sudo -u hdfs hadoop fs -chmod -R 777 / 改变hadoop目录访问权限,之后再次创建原创 2020-05-19 20:33:48 · 1026 阅读 · 0 评论 -
完整CDH搭建,适用于Docker下安装CDH
1.1 环境说明CentOS 6.9JDK 1.8CDH 5.14.0Cloudera Manager 5.14.0MySql 5.1.73JDBC mysql-connector-java-5.1.32-bin.jar1.2 CDH相关下载cloudera 官网地址cloudera manager 离线安装的tar包下载地址cloudera-manager-installer.bin下载地址CDH下载地址1.3 虚拟机节点CDH Server :cdh-serverCDH原创 2020-05-19 17:16:10 · 1427 阅读 · 0 评论 -
Spark累加器与自定义累加器
累加器解决了在Driver端定义变量,在Executor 中对变量操作不会被回收到Driver端的问题。例如: val spark = SparkSession.builder().appName("AccumulatorDemo").master("local").getOrCreate() val sc = spark.sparkContext var i = 0;...原创 2020-03-03 00:06:57 · 153 阅读 · 0 评论 -
Spark 广播变量
广播变量解决task携带多份重复的Driver端变量,造成Executor内存资源浪费的问题Driver 端由 broadCastList 存放广播变量 并发送到每个Executor中每个 Executor 由 BlockManager 管理 broadCastListTask 首先向BlockManager 查看是否由需要的变量广播变量为了保证线程安全不能被修改注意事项:广播...原创 2020-03-02 20:59:18 · 183 阅读 · 0 评论 -
Spark常用算子
Transformations 算子转换算子 延迟执行、需要action算子触发执行、特点:RDD类型转换到RDDmap 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。特点:输入一条,输出一条数据。flatmap 一对多 输入一条数据 输出多条 (会转换成k v RDD) 先map后flat。与map类似,每个输入项可以映射为0到多个输出项。filter 过滤符...原创 2020-03-02 16:56:45 · 270 阅读 · 0 评论 -
nginx注册linux系统服务
在/etc/rc.d/init.d/ 路径中创建nginx文件#!/bin/sh## nginx - this script starts and stops the nginx daemon## chkconfig: - 85 15 # description: Nginx is an HTTP(S) server, HTTP(S) reverse \# ...原创 2020-02-15 12:34:14 · 410 阅读 · 0 评论 -
日志分析项目笔记1:通过JS埋点实现数据log存储
思路通过JS埋点的方式发送请求,通过nginx日志记录实现数据存储。JS代码(function() { var CookieUtil = { // get the cookie of the key is name get : function(name) { var cookieName = encodeURIComponent(name) + "=", cookieSta...原创 2020-02-15 09:47:56 · 627 阅读 · 0 评论 -
Hive 搭建
搭建环境Getting Started GuideRequirementsJava 1.7Note: Hive versions 1.2 onward require Java 1.7 or newer. Hive versions 0.14 to 1.1 work with Java 1.6 as well. Users are strongly advised to start m...原创 2020-02-12 10:03:32 · 182 阅读 · 0 评论 -
Hive 函数总结
1.内置运算符1.1关系运算符运算符类型说明A = B所原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A <> B所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。A < B所有原始...原创 2020-02-11 20:35:29 · 103 阅读 · 0 评论 -
6.Hadoop_MapReduce计算框架介绍、架构原理、yarn资源管理
MapReduce介绍MapReduce分为2部分:MapTask、ReduceTaskMapTask会把数据映射成一个k,v格式的中间数据集。每组相同key组成的数据(一般情况下)会并发调用reduce方法,方法内迭代这组数据进行计算(类似sql)MapTask数量:对Block Spilt(切片),每一个Spilt(片)会分配一个MapTaskReduceTask数量:一般情况下 相...原创 2020-02-11 16:03:57 · 285 阅读 · 0 评论 -
1.hadoop基本介绍、HDFS架构模型、原理解析
hadoop介绍官方网站: http://hadoop.apache.org/官方网站(老版本): https://hadoop.apache.org/old/hadoop基于分布式的存储(HDFS)计算(MapReduce)的开源框架数。hadoop 基于lucene(倒排索引)框架 。小知识点: 第一个分布式搜索开源框架 nutch 。技术思想Google一篇论文: Opensta...原创 2020-02-08 17:36:02 · 1859 阅读 · 0 评论 -
5.Hadoop_HDFS_Java API
准备工作解压 hadoop-2.6.5.tar.gz(windows版本) 和hadoop-2.6.5-src.tar.gz解压后的hadoop-2.6.5中的jar包 存入同一文件夹下,用于eclipse 外部引用把解压后的 hadoop-2.6.5\bin\hadoop.dll 拷贝到c:\windows\system32\ 文件夹中配置环境变量HADOOP_HOME地...原创 2020-02-05 21:02:09 · 151 阅读 · 0 评论 -
4.Hadoop_HDFS2.x_高可用搭建
架构说明HDFS 2.x HAHDFS High Availability Using the Quorum Journal Manager搭建说明虚拟机NN-1NN-2DNZKZKFCJNNnode01***node02*****node03***node04**搭建步骤官方文档: ...原创 2020-02-05 20:58:58 · 414 阅读 · 0 评论 -
3.Hadoop_HDFS1.x_全分布式搭建
环境CentOS 6.5Apache Hadoop 2.6.5JDK 7 (Hadoop3.0以上需要JDK8)hadoop-2.6.5.tar.gz准备工作准备4台虚拟机 node01、node02、node03、node04检查虚拟机时间是否同步检查/etc/sysconfig/network 中 HOSTNAME是否与上面一致检查/etc/hosts 文件是...原创 2020-02-05 20:57:44 · 96 阅读 · 0 评论 -
2.Hadoop_HDFS1.x_伪分布式搭建
环境CentOS 6.5Apache Hadoop 2.6.5JDK 7 (Hadoop3.0以上需要JDK8)hadoop-2.6.5.tar.gz搭建步骤参考官方文档: https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distrib...原创 2020-02-05 20:55:42 · 256 阅读 · 0 评论 -
Kafka基础介绍、架构介绍、搭建步骤、常用命令
Kafka 介绍官方网址采用生产者消费者模型,具有高性能(单节点支持上千个客户端,百兆/s吞吐量)、持久性(消息直接持久化在普通磁盘上且性能好)、分布式(数据副本冗余、流量负载均衡、可扩展)、灵活性(消息长时间持久化+Client维护消费状态)的特点Kafka优势解耦与缓冲: 例如使用SparkStream时,于flume采集后的数据传输,解决了大量数据导致SparkStream崩溃的问...原创 2020-02-05 20:30:14 · 213 阅读 · 0 评论 -
Flume基础介绍、搭建、入门案例、常用参数
Flume 介绍官方网址架构模型基础架构模型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yWPIb2o8-1580823341408)(flume/DevGuide_image00.png)]WebServer : 数据源HDFS : 存储源Agent : Flume (代理) 包含3个组件Source : 数据源获取的数据Channel : ...原创 2020-02-04 21:37:32 · 308 阅读 · 0 评论