自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 ES索引数据迁移 _reindex

索引数据 集群内 增量或全量迁移数据

2022-11-09 10:38:49 4333 1

原创 数据仓库建模方法

数据仓库建模

2022-09-08 13:32:38 153

原创 python项目 部署-打包-离线安装包

1 先安装pipreqs 包2 在项目根目录下 生成requirements.txt,根目录下执行命令3 生成文件之后, 根据文件下载包新建目录 site-packages 进入到目录中,执行命令4 将项目整个压缩,上传到服务器上,解压,然后执行命令最后 需要注意的是,有些包由于系统的不同,而不适用,要对这些包做单独的下载。...

2022-06-27 09:37:51 1048

原创 gp-greenplum-segment内存查看-分配的内存

greenplum查看分配给segment多少内存需要参考资源隔离方式。在gp里有两种资源管理方式1 资源队列2 资源组资源组的管理方式相对更加全面。所一下资源组怎么查看segment内存。在gp里有个参数gp_resource_group_memory_limit这个参数是控制系统分配个greenplum进程的内存百分比。通过一下方式查看 默认是70%hdr=# show gp_resource_group_memory_limit; gp_resource_group_memory_l

2022-03-29 14:42:56 1133

原创 gp-greenplum-vacuum-资源回收-AO表空间回收

gp有个命令是VACUUM这个命令主要用来回收过时的表空间,这些过时的空间是怎么产生的呢?原因是: 由于Greenplum数据库中使用了MVCC事务并发模型,即使任何新事务都不可见,被删除或更新的数据行仍占据磁盘上的物理空间。 过期的行会增加磁盘上的表大小,并最终减慢表的扫描速度怎么判断表是否需要回收呢:堆表通过查看这个视图gp_toolkit.gp_bloat_diag可以看到,AO表需要使用函数查看__gp_aovisimap_compaction_infoAO表示例:select * fro

2022-03-18 17:07:22 1303

原创 greenplum-gp-创建共享表-复制表-REPLICATED-分发策略

gp创建表有3中分发策略create table xxx ()with()[ distributed by (column [opclass], [ … ] )| distributed randomly | distributed replicated ]第一种根据指定的列分发,为了分布均匀尽量选择唯一值。第二种distributed randomly ,系统随机分配一个符合的列进行分发第三种distributed replicated,会将所有行都分配到所有的实例上,就是说每个实例上都有全

2022-03-01 10:38:47 1836

原创 智慧物流服务中心-大数据-大屏-源码实现

智慧服务服务中心大屏源码实现

2022-02-28 17:06:25 1593

原创 hive查看字符占字节数-hive-字节长度

查看hive字符的字节长度select length(binary(‘xxxxx’))一个英文字符(符号)占1个字节、数字也是1个字节一个中文字符(符号)占3个字节

2022-02-14 17:02:44 5849

原创 does not allow create table as select报错 pyspark-write-mysql权限错误

在低版本spark中df.write.format(jdbc)会报上述错误。解决方式:换个函数去写,df.write.jdbc()传入相应参数就可以解决

2022-01-20 16:48:39 2431

原创 linux命令-查看cpu信息

查看cpu信息grep processor /proc/cpuinfo |wc -lgrep -c processor /proc/cpuinfo查看内存信息free -gfree -m

2022-01-18 10:43:03 763

原创 sparkSession-连接mysql报错-java.sql.SQLException: No suitable driver-python-pyspark-dataframe

如图所示 pyspark连接mysql代码 运行时报错java.sql.SQLException: No suitable driver意思是没有mysql驱动包。报的是java错误,判断是pyspark调用java-jar包去连接mysql。解决方式:将mysql连接驱动包放到系统环境变量JAVA_HOME目录下的jre\lib\ext下边就可以了。报错得以解决我的驱动包是mysql-connector-java-5.1.37.jar。...

2022-01-12 10:43:15 664

原创 RDD理解

1 RDD 全称是Resilient Distributed Datasets翻译过来是弹性分布数据集对这三个词一一理解弹性:弹性指任何时候都能够重算。比如一台节点如果出了故障,RDD会在别的节点上重新恢复运行。为什么能做到这点呢?因为RDD是依赖上个RDD产生的,具有血缘关系,即使某台节点 的RDD损坏了,可以根据血缘关系重新生成RDD 。分布:指RDD是分布在集群中的,或者说它是分区的。每个RDD都可以分区。通过算子glom算子可以查看RDD的分区情况数据集:可以是任何类型的数据集,通常是一

2022-01-10 20:45:47 998

原创 greenplum-gp-删除重复数据

gp的表里有两个列是系统分配的,gp_segment_id(分配在哪个实例上),ctid(唯一值)删除重复数据时推荐两种方法1 DELETE FROM aWHERE (gp_segment_id ,ctid)IN (SELECT gp_segment_id ,min(ctid)FROM aGROUP BY id,gp_segment_id having count(1) > 1);用in 或者 exists 都可以(创建表时分布键一定是id 才能用上述方法)2 创建临时表 将重

2022-01-07 11:35:01 1279

原创 netty启动源码阅读

netty启动源码阅读前言netty是一个高性能的网络框架,为什么高性能,需要读者自行了解一下BIO,NIO 等java的IO发展。今天只分享netty的服务启动源码阅读。netty服务启动示例代码在netty官方网站里提供了很多netty的用例,供测试使用,我们今天就对这段代码开始debug这两个源码都在 io.netty.example.echo 包下启动类示例分析看启动类的...

2019-10-13 17:24:49 243

原创 CAS原理

CAS原理CAS是什么CAS使用CAS原理CAS应用如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入CAS是什么CAS全称compareAndSwap,比较和...

2019-10-10 18:07:35 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除