- 博客(90)
- 问答 (7)
- 收藏
- 关注
原创 kettle 导入资源库失败 There was an error while inporting repositry object from an XML file
kettle 导入资源库失败 There was an error while inporting repositry object from an XML file
2022-11-04 11:28:35 600 1
原创 安装 sqlserver 2008 提示:重新启动计算机失败
安装 sqlserver 2008 R2 时候,最初检测时此处提示未通过,提示重新启动计算机未通过
2022-11-03 15:37:03 2584
原创 day83 Flink Sink集群 运行流程 事件时间
文章目录一、Flink1、Sink1 直接在控制台打印2 连接写入至 mysql3 写至本地文件I know, i know地球另一端有你陪我一、Flink1、Sink可以使用自定义 Sink,需要实现 RichSinkFunction 接口,重写里面的 invoke1 直接在控制台打印package sinkimport org.apache.flink.configuration.Configurationimport org.apache.flink.streami
2022-01-19 22:29:27 1965
原创 day82 Flink 安装 Source 算子
文章目录一、Flink1、Flink 和 Spark 区别有的没的I know, i know地球另一端有你陪我一、FlinkApache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。可以对标 Spark,一个擅于流处理,一个擅于批处理1、Flink 和 Spark 区别应用上:Flink 多用于处理流数据;Spark 多用于处理批数据底层上:Flink 底层是持续流
2022-01-19 15:17:56 1596
原创 项目工具 AZKABAN KYLIN FineBI
文章目录一、AZKABAN1、安装2、使用方法I know, i know地球另一端有你陪我一、AZKABAN一个 JAVA 编写的、开源的,任务调度工具linux 中自带 crontab 的调度工具,但是只能够定时启动而较难处理多个任务调度之间的依赖关系1、安装1 上传解压文件unzip azkaban-solo-server.zip2 修改配置文件中的时区vim conf/azkaban.properties// 修改时区default.timezone.id
2022-01-17 19:35:08 587
原创 day75 saprk 调优
文章目录一、代码优化1、对多次使用的RDD进行缓冲2、使用高性能算子3、广播变量 broadcast4、Kryo优化序列化性能5、数据本地性二、参数调优三、数据倾斜优化1、双重聚合2、将 reduce join 转为 map join3、双重 joinI know, i know地球另一端有你陪我一、代码优化1、对多次使用的RDD进行缓冲使用 cache,注意持久化策略MEMORY_ONLY 和 MEMORY_AND_DISK_SER序列化能够对数据进行压缩,减少数据的占用
2022-01-11 16:55:33 328
原创 day74 Spark - streaming
文章目录一、Spark - streaming1、WordCount2、UpdateStateByKey3、foreachRDD4、模拟带状态算子5、滑动窗口6、稽查布控I know, i know地球另一端有你陪我一、Spark - streaming微批处理,一定时间内将该段时间产生的数据进行批处理,是一种近似的实时处理1、WordCountpackage streamingimport org.apache.spark.streaming.dstream.Receiv
2022-01-11 16:55:17 193
原创 day73 Spark - sql
文章目录一、Spark 执行方式1、spark-submit2、spark shell3、spark-sql二、散碎1、外部链接到 hive 库2、Spark 中的 Map Join(小表广播)3、PageRank零碎I know, i know地球另一端有你陪我一、Spark 执行方式1、spark-submitpackage testimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo6Subm
2022-01-07 20:49:56 1441
原创 day69、70 Spark 架构 常见算子 接着有的没的
文章目录一、一些架构1、Spark 简单架构2、yarn-client3、yarn-cluster二、一些架构I know, i know地球另一端有你陪我一、一些架构1、Spark 简单架构算子会在 Excutor 中的线程池中进行,而算子之外的命令都会在 Driver 中执行2、yarn-client3、yarn-cluster一个较大的区别是 Driver 端启动的位置不一样另一个是日志的打印位置,cluster 不会将日志全部打印在本地(Driver)可以
2022-01-02 20:59:01 1571
原创 day68 Spark core 安装 五大特性 有的没的
文章目录一、基本容器1、Tuple零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是,四个基本容器全是不可变的1、Tuple零碎本地(local)运行 Spark 项目需要在任意位置导入一个新建一个 hadoop / bin 路径bin 下面塞一个 winutils.exe,在环境变量中添加 hadoop 到 HDOOP_HOME可以回避一个报
2021-12-29 22:27:08 1137
原创 day67 Scala 容器 隐式转换
文章目录一、基本容器1、Tuple2、List3、Set4、Map二、隐式转换1、隐式转换方法2、隐式转换变量3、隐式转换类各种小零散碎1、模式匹配(case)2、Null null Nil Nothing None Unit3、Trait零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是,四个基本容器全是不可变的1、TupleTuple 元组:不可变,有序,元素可以重复
2021-12-26 19:47:20 368
原创 day65、66 Scala 面向对象 面向函数
零碎// Any是任意类型的基类// AnyRef:任意引用类型的基类// AnyVal:任意值类型的基类Nothing 无参数B 任意类型返回值Unit 无返回值
2021-12-26 19:46:53 487
原创 day63、64 阿里云 datawork
文章目录一、数据开发 -- DataWorks1、创建表1 从其他数据源中同步2 手动创建表3、业务流程二、运维中心三、数据服务四、连接 MaxCompute 的另两种方法1、odpscmd 客户端2、MaxCompute Studio3、MaxCompute Java五、行列转换(部分)1 explode2 posexplode3 lateral view4 MaxCompute 自定义函数5 Function Stutio 自定义函数零碎I know, i know地球另一端有你陪我
2021-12-22 21:56:59 1294
原创 day 60、61、62 Python Scrapy
文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、选择结构3、循环结构4、文件 IO5、连接 MySQL6、日期转换7、函数8、函数参数的类型二、面向对象1、类三、异常处理I know, i know地球另一端有你陪我一、Python1、数据容器scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
2021-12-20 21:43:20 295
原创 day 58、59 Python
文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、遍历I know, i know地球另一端有你陪我一、Python1、数据容器类似于 java 中的集合,Python 包含四大数据容器元组tuple、列表list、集合set、字典dict1、元祖 tuple特点:1、元素类型可以不唯一2、元素允许重复3、初始化后,其中元素不可修改4、输入输出有序定义:tuple1 = (1,1,1,2,2,3,4,
2021-12-15 21:14:48 787
原创 kettle 一些基础
文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeKettle是一款开源的ETL工具,纯java编写,可以在 Window、Linux、Unix 上运行,绿色无需安装是国外开源 ETL工具,支持数据库、FTP、文件、rest接口、hdfs、hive等平台的灵敏据进行抽取、转换、传输等操作,Java编写跨平台,
2021-12-12 10:12:45 1860
原创 day 56 flume
文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。特点是实时采集Eventfl
2021-12-12 09:18:39 441
原创 day 54 Sqoop
文章目录一、Sqoop1、SQOOP安装准备MySQL数据2、import2.1 MySQLToHDFS2.2 MySQLToHive2.3 MySQLToHBase3、export3.1 HDFSToMySQL4、查看sqoop help5、增量导入**建表**append总结I know, i know地球另一端有你陪我一、SqoopApache开源软件,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。数据吞吐量大:依赖ha
2021-12-07 21:52:17 2305
原创 day 53 HBase BulkLoading
HBase BulkLoading优点:如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。限制:
2021-12-06 19:00:57 1135
原创 day 53 HBase 参数调优
文章目录HBase参数调优什么时候触发 MemStore Flush?什么操作会触发 MemStore 刷写检测?MemStore 刷写策略(FlushPolicy)I know, i know地球另一端有你陪我HBase参数调优hbase.regionserver.handler.count该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的G
2021-12-05 21:12:04 162
原创 day 53 HBase RowKey设计
文章目录1、rowkey长度原则2、rowkey散列原则3、rowkey唯一原则二、热点问题1、加盐2、哈希3、反转时间戳反转其他一些建议I know, i know地球另一端有你陪我HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有三种方式:通过get方式
2021-12-05 16:37:24 94
原创 day 52 HBase phoenix 安装 指令 二级索引
文章目录一、phoenix1、安装2、常用指令3、视图映射3.1、视图映射3.2、表映射二、二级索引1、开启索引支持2、全局索引3、本地索引4、覆盖索引三、Phoenix JDBC总结I know, i know地球另一端有你陪我一、phoenixHbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方
2021-12-05 09:22:17 1300
原创 day 51 hbase 过滤 器布隆过滤器
文章目录一、过滤器1、常见的比较运算符2、常见的比较器BinaryComparatorBinaryPrefixComparatorRegexStringComparatorSubstringComparator3、常见过滤器rowKey过滤器:RowFilter列簇过滤器:FamilyFilter列过滤器:QualifierFilter列值过滤器:ValueFilter4、专用过滤器单列值过滤器:SingleColumnValueFilter列值排除过滤器:SingleColumnValueExcludeF
2021-12-02 22:36:06 1191
原创 day 50 hbase java连接
文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region( region 类似hadoop 中的 blo
2021-12-01 21:17:22 126
原创 day 49 hbase 基础
文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region( region 类似hadoop 中的 blo
2021-12-01 21:14:57 343
原创 day 49 hbase 安装 指令
I know, i know地球另一端有你陪我一、HBaseHBase – Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用 Hadoop HDFS 作为其文件存储系统利用 Hadoop MapReduce 来处理 HBase 中的海量数据利用Zookeeper作为其分布式协同服务主
2021-11-30 19:52:26 609
原创 day 48 hive(SQL)一些习题
文章目录一、窗口函数1、列出至少有一个员工的所有部门2、列出薪金比“SMITH”多的所有员工3、列出所有员工的姓名及其直接上级的姓名4、列出受雇日期早于其直接上级的所有员工5、列出部门名称和这些部门的员工信息,同时列出那些没有员工的部门6、列出所有“CLERK”(办事员)的姓名及其部门名称7、 列出最低薪金大于1500的各种工作8、列出在部门“SALES”(销售部)工作的员工的姓名,假定不知道销售部的部门编号9、列出薪金高于公司平均薪金的所有员工10、列出与“SCOTT”从事相同工作的所有员工11、列出薪金
2021-11-27 22:05:32 1135
原创 day 47 hive 开窗函数(二) 自定义函数
文章目录一、窗口函数1、window as2、with as3、常用函数4、窗口帧二、常用函数1、UDF:一进一出2、UDTF:一进多出总结I know, i know地球另一端有你陪我一、窗口函数1、window asselect *,rank() over(partition by clazz order by score desc) as scorerankfrom students;这里的 over() 中的语句大多相似,可以独立拆下来,用变量名代替window o
2021-11-26 19:50:55 1026
原创 day 46 hive 分区/桶 JDBC 数据类型 开窗函数(连续登陆问题,top N)
文章目录一、分区1、分区2、动态分区3、多级分区(多级子目录)二、分桶三、Hive JDBC四、一些数据类型1、基本数据类型2、时间类型3、复杂数据类型1 array2 map3 struct4、行、列转换1 行转列2 列转行五、开窗函数总结I know, i know地球另一端有你陪我一、分区1、分区实际上是在表的目录下在以分区命名,建子目录作用:能够避免全表扫描,减少MapReduce处理的数据量,提高效率需要在建表时加上分区字段,通常按日期、地域分区,一般不超过三级目录,
2021-11-26 19:50:41 1083
原创 day 45 hive 安装 基础知识 指令
文章目录一、hive1、hive 安装2、hive 测试二、hive二、ZK 搭建1、使用 zk2、java 使用 zk三、搞 hadoop 集群四、完成!I know, i know地球另一端有你陪我一、hiveHadoop 中,查询大多依赖 MapReduce ,慢得要死针对这种不足,人们开发出了专门应对的工具 hiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在
2021-11-24 22:07:00 1124
原创 day 44 搞 hadoop 集群
文章目录一、Zookeeper二、ZK 搭建1、使用 zk2、java 使用 zk二、搞 hadoop 集群I know, i know地球另一端有你陪我一、Zookeeper一个高效的分布式协调服务,特点是可以设置观察者(ZKFC)按时返回节点的当前状态及时做出判断(动物园管理员,名字狂的要死)(想到孙悦)JN负责 Name Node 中,文件路径映射在主节点和备用主节点之间同步ZK可以理解为陪审团,负责根据接收 ZKFC 的信息,决定需不需要替换当前节点一般会设置
2021-11-23 10:05:01 577
原创 day 43、44 Hadoop mapreduce yarn
文章目录一、关于 Hadoop 的 hdfs1、hdfs 中的节点2、分布式存储4、java 连接 hdfs5、hdfs 读取流程6、hdfs 写入流程总结I know, i know地球另一端有你陪我 cd /usr/local/soft/hadoop-2.7.6/share/mapreduce hadoop jar hadoop-mapreduce-examples-2.7.6.jar wordcount /words.txt 输入路径 输出路径
2021-11-21 23:07:12 782
原创 day 42 Hadoop hdfs
文章目录一、关于 Hadoop 的 hdfs1、hdfs 中的节点2、分布式存储4、java 连接 hdfs5、hdfs 读取流程6、hdfs 写入流程总结I know, i know地球另一端有你陪我一、关于 Hadoop 的 hdfs1、hdfs 中的节点从节点(data node)负责存储数据:数据节点具有储存数据、读写数据的功能,其中存储的数据块(block)比较类似于硬盘中的"扇区"概念,是 HDFS 存储的基本单位主节点(name node)负责指挥其它节点:
2021-11-19 22:59:40 643
原创 day41 Hadoop 安装 指令
文章目录Hadoop1、安装2、基本操作3、关于 Hadoop 的 hdfs1、集群中不同的节点承担不同的职责2、分布式存储3、hdfs 中的节点4、hdfs 访问顺序总结I know, i know地球另一端有你陪我HadoopHadoop是一个适合海量数据的分布式存储和分布式计算的平台三大组件hdfs:是一个分布式存储框架,适合海量数据存储mapreduce:是一个分布式计算框架,适合海量数据计算yarn:是一个资源调度平台,负责给计算框架分配计算资源1、安装1
2021-11-18 22:47:56 975
原创 day40 redis 主从复制 集群
文章目录一、主从复制 Replication二、主从复制创建 slaveof1、开启服务时建立主从关系2、服务运行时指向3、配置文件中指向4、主从复制特点三、Redis 集群1、Redis 集群节点2、Redis 集群故障转移3、Redis 集群分片4、Redis 集群 转向 Redirect5、Redis 集群 搭建总结I know, i know地球另一端有你陪我一、主从复制 Replication现实环境中,服务器更多的被用来执行读命令为了缓解读压力,一个 Redis 服务可以
2021-11-17 20:24:22 817
空空如也
神通数据库代理服务无法启动的问题
2023-04-26
在函数处理中嵌套使用笛卡尔积的用法
2022-11-17
使用 kettle 进行资源库导入时报错
2022-11-04
kettle中mysql连接JNDI的问题
2022-04-11
hive 里, date_sub 的使用问题
2021-11-26
关于位图中,二级制的存储顺序
2021-11-15
关乎JDBC连接数据库,executeQuery()方法的返回值
2021-11-12
vmware12 centOS7 显示界面字体很小
2021-10-30
关于 hashset 的去重
2021-10-15
关于 hasNextInt() 的用法
2021-10-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人