韭菜盒子123-CSDN博客

原创关于SQL中关联条件和筛选条件位置对结果的影响

但是筛选条件放在 ON 中，会早一步筛选，提高运行结果。相对的，在正常的内部关联中，对结果不会有太大结果。起因是在写模型时发现一个模型的结果数据量异常大。以前有想过关联条件和筛选条件会不会影响最终结果。现在看来是会影响的，下面这句话是关键。发现是我之前调整了关联条件导致的。

2025-03-07 15:47:25 179

原创服务搭建 ollama + Deepseek + Open WebUI + 硅基流动API

地球另一端有你陪我。

2025-02-21 16:13:50 1601

原创 kettle 导入资源库失败 There was an error while inporting repositry object from an XML file

kettle 导入资源库失败 There was an error while inporting repositry object from an XML file

2022-11-04 11:28:35 672

原创安装 sqlserver 2008 提示：重新启动计算机失败

安装 sqlserver 2008 R2 时候，最初检测时此处提示未通过，提示重新启动计算机未通过

2022-11-03 15:37:03 2881

文章目录一、Flink1、Sink1 直接在控制台打印2 连接写入至 mysql3 写至本地文件I know, i know地球另一端有你陪我一、Flink1、Sink可以使用自定义 Sink，需要实现 RichSinkFunction 接口，重写里面的 invoke1 直接在控制台打印package sinkimport org.apache.flink.configuration.Configurationimport org.apache.flink.streami

2022-01-19 22:29:27 2044

原创 day82 Flink 安装 Source 算子

文章目录一、Flink1、Flink 和 Spark 区别有的没的I know, i know地球另一端有你陪我一、FlinkApache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。可以对标 Spark，一个擅于流处理，一个擅于批处理1、Flink 和 Spark 区别应用上：Flink 多用于处理流数据；Spark 多用于处理批数据底层上：Flink 底层是持续流

2022-01-19 15:17:56 1626

原创项目工具 AZKABAN KYLIN FineBI

文章目录一、AZKABAN1、安装2、使用方法I know, i know地球另一端有你陪我一、AZKABAN一个 JAVA 编写的、开源的，任务调度工具linux 中自带 crontab 的调度工具，但是只能够定时启动而较难处理多个任务调度之间的依赖关系1、安装1 上传解压文件unzip azkaban-solo-server.zip2 修改配置文件中的时区vim conf/azkaban.properties// 修改时区default.timezone.id

2022-01-17 19:35:08 646

原创报错：$‘\r‘：未找到命令

报错：$'\r'：未找到命令

2022-01-12 20:10:06 1150

原创 day75 saprk 调优

文章目录一、代码优化1、对多次使用的RDD进行缓冲2、使用高性能算子3、广播变量 broadcast4、Kryo优化序列化性能5、数据本地性二、参数调优三、数据倾斜优化1、双重聚合2、将 reduce join 转为 map join3、双重 joinI know, i know地球另一端有你陪我一、代码优化1、对多次使用的RDD进行缓冲使用 cache，注意持久化策略MEMORY_ONLY 和 MEMORY_AND_DISK_SER序列化能够对数据进行压缩，减少数据的占用

2022-01-11 16:55:33 349

原创 day74 Spark - streaming

文章目录一、Spark - streaming1、WordCount2、UpdateStateByKey3、foreachRDD4、模拟带状态算子5、滑动窗口6、稽查布控I know, i know地球另一端有你陪我一、Spark - streaming微批处理，一定时间内将该段时间产生的数据进行批处理，是一种近似的实时处理1、WordCountpackage streamingimport org.apache.spark.streaming.dstream.Receiv

2022-01-11 16:55:17 216

原创 day73 Spark - sql

文章目录一、Spark 执行方式1、spark-submit2、spark shell3、spark-sql二、散碎1、外部链接到 hive 库2、Spark 中的 Map Join（小表广播）3、PageRank零碎I know, i know地球另一端有你陪我一、Spark 执行方式1、spark-submitpackage testimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo6Subm

2022-01-07 20:49:56 1540

原创 day69、70 Spark 架构常见算子接着有的没的

文章目录一、一些架构1、Spark 简单架构2、yarn-client3、yarn-cluster二、一些架构I know, i know地球另一端有你陪我一、一些架构1、Spark 简单架构算子会在 Excutor 中的线程池中进行，而算子之外的命令都会在 Driver 中执行2、yarn-client3、yarn-cluster一个较大的区别是 Driver 端启动的位置不一样另一个是日志的打印位置，cluster 不会将日志全部打印在本地（Driver）可以

2022-01-02 20:59:01 1600

原创 day68 Spark core 安装五大特性有的没的

文章目录一、基本容器1、Tuple零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是，四个基本容器全是不可变的1、Tuple零碎本地（local）运行 Spark 项目需要在任意位置导入一个新建一个 hadoop / bin 路径bin 下面塞一个 winutils.exe，在环境变量中添加 hadoop 到 HDOOP_HOME可以回避一个报

2021-12-29 22:27:08 1176

原创 day67 Scala 容器隐式转换

文章目录一、基本容器1、Tuple2、List3、Set4、Map二、隐式转换1、隐式转换方法2、隐式转换变量3、隐式转换类各种小零散碎1、模式匹配（case）2、Null null Nil Nothing None Unit3、Trait零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是，四个基本容器全是不可变的1、TupleTuple 元组：不可变，有序，元素可以重复

2021-12-26 19:47:20 404

原创 day65、66 Scala 面向对象面向函数

零碎// Any是任意类型的基类// AnyRef：任意引用类型的基类// AnyVal：任意值类型的基类Nothing 无参数B 任意类型返回值Unit 无返回值

2021-12-26 19:46:53 525

原创 day63、64 阿里云 datawork

文章目录一、数据开发 -- DataWorks1、创建表1 从其他数据源中同步2 手动创建表3、业务流程二、运维中心三、数据服务四、连接 MaxCompute 的另两种方法1、odpscmd 客户端2、MaxCompute Studio3、MaxCompute Java五、行列转换（部分）1 explode2 posexplode3 lateral view4 MaxCompute 自定义函数5 Function Stutio 自定义函数零碎I know, i know地球另一端有你陪我

2021-12-22 21:56:59 1428

原创 day 60、61、62 Python Scrapy

文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、选择结构3、循环结构4、文件 IO5、连接 MySQL6、日期转换7、函数8、函数参数的类型二、面向对象1、类三、异常处理I know, i know地球另一端有你陪我一、Python1、数据容器scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

2021-12-20 21:43:20 316

原创 day 58、59 Python

文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、遍历I know, i know地球另一端有你陪我一、Python1、数据容器类似于 java 中的集合，Python 包含四大数据容器元组tuple、列表list、集合set、字典dict1、元祖 tuple特点：1、元素类型可以不唯一2、元素允许重复3、初始化后，其中元素不可修改4、输入输出有序定义：tuple1 = (1,1,1,2,2,3,4,

2021-12-15 21:14:48 824

原创 kettle 一些基础

文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeKettle是一款开源的ETL工具，纯java编写，可以在 Window、Linux、Unix 上运行，绿色无需安装是国外开源 ETL工具，支持数据库、FTP、文件、rest接口、hdfs、hive等平台的灵敏据进行抽取、转换、传输等操作，Java编写跨平台，

2021-12-12 10:12:45 2115

原创 day 56 flume

文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（比如文本、HDFS、Hbase等）的能力。特点是实时采集Eventfl

2021-12-12 09:18:39 467

原创 day 54 Sqoop

文章目录一、Sqoop1、SQOOP安装准备MySQL数据2、import2.1 MySQLToHDFS2.2 MySQLToHive2.3 MySQLToHBase3、export3.1 HDFSToMySQL4、查看sqoop help5、增量导入**建表**append总结I know, i know地球另一端有你陪我一、SqoopApache开源软件，主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。数据吞吐量大：依赖ha

2021-12-07 21:52:17 2345

原创 day 53 HBase BulkLoading

HBase BulkLoading优点：如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配合mapreduce完成，高效便捷，而且不占用region资源，增添负载。限制：

2021-12-06 19:00:57 1152

原创 day 53 HBase 参数调优

文章目录HBase参数调优什么时候触发 MemStore Flush?什么操作会触发 MemStore 刷写检测？MemStore 刷写策略（FlushPolicy）I know, i know地球另一端有你陪我HBase参数调优hbase.regionserver.handler.count该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的G

2021-12-05 21:12:04 182

原创 day 53 HBase RowKey设计

文章目录1、rowkey长度原则2、rowkey散列原则3、rowkey唯一原则二、热点问题1、加盐2、哈希3、反转时间戳反转其他一些建议I know, i know地球另一端有你陪我HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有三种方式：通过get方式

2021-12-05 16:37:24 112

原创 day 52 HBase phoenix 安装指令二级索引

文章目录一、phoenix1、安装2、常用指令3、视图映射3.1、视图映射3.2、表映射二、二级索引1、开启索引支持2、全局索引3、本地索引4、覆盖索引三、Phoenix JDBC总结I know, i know地球另一端有你陪我一、phoenixHbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方

2021-12-05 09:22:17 1320

原创 day 51 MapReduce to HBase

I know, i know地球另一端有你陪我

2021-12-03 20:38:51 99

原创 day 51 hbase 过滤器布隆过滤器

文章目录一、过滤器1、常见的比较运算符2、常见的比较器BinaryComparatorBinaryPrefixComparatorRegexStringComparatorSubstringComparator3、常见过滤器rowKey过滤器：RowFilter列簇过滤器：FamilyFilter列过滤器：QualifierFilter列值过滤器：ValueFilter4、专用过滤器单列值过滤器：SingleColumnValueFilter列值排除过滤器：SingleColumnValueExcludeF

2021-12-02 22:36:06 1246

原创 day 50 hbase java连接

文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region（ region 类似hadoop 中的 blo

2021-12-01 21:17:22 143

原创 day 49 hbase 基础

文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region（ region 类似hadoop 中的 blo

2021-12-01 21:14:57 384

原创 day 49 hbase 安装指令

I know, i know地球另一端有你陪我一、HBaseHBase – Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用 Hadoop HDFS 作为其文件存储系统利用 Hadoop MapReduce 来处理 HBase 中的海量数据利用Zookeeper作为其分布式协同服务主

2021-11-30 19:52:26 627

原创 day 48 hive（SQL）一些习题

文章目录一、窗口函数1、列出至少有一个员工的所有部门2、列出薪金比“SMITH”多的所有员工3、列出所有员工的姓名及其直接上级的姓名4、列出受雇日期早于其直接上级的所有员工5、列出部门名称和这些部门的员工信息，同时列出那些没有员工的部门6、列出所有“CLERK”（办事员）的姓名及其部门名称7、列出最低薪金大于1500的各种工作8、列出在部门“SALES”（销售部）工作的员工的姓名，假定不知道销售部的部门编号9、列出薪金高于公司平均薪金的所有员工10、列出与“SCOTT”从事相同工作的所有员工11、列出薪金

2021-11-27 22:05:32 1166

空空如也

神通数据库代理服务无法启动的问题

在函数处理中嵌套使用笛卡尔积的用法

使用 kettle 进行资源库导入时报错

kettle中mysql连接JNDI的问题

hive 里， date_sub 的使用问题

关乎JDBC连接数据库，executeQuery()方法的返回值

关于位图中，二级制的存储顺序

vmware12 centOS7 显示界面字体很小

关于 hashset 的去重

关于 hasNextInt() 的用法