自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Flink流关联频繁更新的维表解决方法探索

目的实时解析处理用户的注册,实名,申额,支用等用户业务流程数据binlog,计算用户生命周期的相应指标到Kudu中,并且需要将当用户指标数据发生变更后也要同时推送到kafka 给其他业务做增量计算,根据这些实时指标,进行后续实时营销等信息推送。背景介绍用户在app上进行简单注册后,会赋值给用户一个userid,但是后续实名等发生具体业务后,会给用户分配一个custno与userid映射关系相关联,接下来用户的所进行的业务例如绑定银行卡,人脸识别,申额,支用,还款等...

2022-02-10 16:50:55 2768

原创 优化 count 去重 语句查询从一分30秒到500ms

待优化sql:select count(DISTINCT sip) from mining_machine where mining_pool='YES';sql 优化:1:建立非聚集联合索引create index count_sip on public.mining_machine(mining_pool,sip);2:优化后sql;select count(*) from (select sip from mining_machine where mining_pool ='Y.

2020-09-03 17:19:06 393

原创 kafka producer 错误error:Expiring 1 record(s) for logs_from_newa-8: 3000014 ms has passed since last a

做样例数据进kafka中,生产者总是阻塞一段时间后抛出过期error。google说修改request.timeout.ms,尽可能长,减少linger.ms,经过实践,卡住的时间会变得和request.timeout.ms 一样长,还会报错。修改:在本地hosts文件中,添加kafka主机名与其ip的映射关系,问题解决。...

2020-08-04 15:57:20 2715

原创 crontab定时脚本含有 date ‘%’问题导致不生效。

Percent-signs (%) in the command, unless escaped with backslash (\), will be changed into newline characters, and all data after the first % will be sent to the command as standard input.

2020-07-29 11:38:56 686

原创 HDFS块损坏问题。

因为断电,导致hdfs块损坏,ClouderManager 提示块损坏问题。1:寻找损坏的块的路径hdfs fsck / | egrep -v '^\.+$' | grep -v eplica2:寻找每个损坏块的相信信息。会列出每个块的副本的节点信息 /path/to/corrupt/file 为损坏块的路径 hdfs fsck /path/to/corrupt/file -locations -blocks -files3:找到每个损坏块副本分散节点,依次去排查相关问题。4:.

2020-07-21 15:13:43 801

原创 postgresql count(distinct) 优化实践

描述:业务需要查表,该表大约不到四个G,总行数900w条,一个简单的去重的条件查询需要一分钟四十秒,这是不能忍受的。原语句:耗时1m40sselect count(DISTINCT sip) from mining_machine where mining_pool='YES';优化措施:1:首先想到加索引,索引顺序也很重要,根据sql解析顺序 where 解析在前。create index count_sip on public.mining_machine(mining_pool

2020-07-09 17:34:44 2601

原创 ZFS,XFS,BtrFS性能测试

1:通过测试结果可以看到btrfs在有raid5(五块5.5T硬盘组合)情况下,磁盘利用率较高,且在顺序读写上较zfs和单盘xfs文件系统性能突出,但是在有缓存随机读写上表现较zfs差一点,无缓存情况下,只有较单块盘的xfs比较,btrfs顺序读性能是单块xfs10倍,zfs不支持无缓存,无法比较,随机写无缓存以及随机读无缓存与单块xfs性能没有太大差异 ...

2020-03-03 16:22:17 14757

原创 python爬虫携程用车总结

爬取携程用车信息,用的比较传统的模拟浏览器行为方式,主要用payload进行request请求,一步步获取最后的用车列表1:缓存清理问题: 根据模拟浏览器行为方式,我们需要从这个页面来选择我们的【租车点】,【租车时间】,【还车时间】,浏览器才能跳转到下一页面,获取下一步的具体租车列表信息。 这里遇到的问题就是通过F12我要根据network中页面请求顺序,...

2019-10-17 16:18:19 996

原创 python项目(非单一.py文件)用Pyinstaller打包发布成exe,在windos上运行程序。

目录一:背景以及项目结构介绍二:实施步骤1:总体思路(1)pyi-makespec -w xxx.py(2)pyinstaller -D xxx.spec2:安装pyinstaller3:具体步骤(以我项目为例子) (1)生成spec文件,并填充内容(2):开始装修房子(打包exe)。(3):验证exe三:疑难杂症和需要注意的坑1:打包找不到模块问...

2019-09-30 20:20:18 5457 15

原创 Kubenetes的Master节点和Node节点

学习笔记-摘录Kubeneters权威指南。Master节点: Kubernetes API Server(kube-apiserver),提供了HTTP Rest接口的关键服务进程,是Kubernetes里所有资源的增删改查等操作的唯一入口,也是集群控制的入口进程。 Kubenetes Controller Manager(kube-controller-manager),Ku...

2019-09-11 15:24:50 858

原创 Docker部署Springboot项目连接到PostgreSQL

docker小白的学习笔记,将自己之前做的Springboot项目做成容器进行试验,新建的PG数据库并没有导入数据,但是此过程可用。一:部署 postgresql镜像。1:搜索postgresql镜像。docker search postgres;2:拉取postgres镜像docker pull postgres3:创建本地目录映射到容...

2019-09-10 09:37:30 1425 1

原创 docker安装mysql挂载本地目录并且设置远程登录

学习docker过程的笔记。1:搜索mysql 镜像docker search mysql2:拉取mysql 最新版本镜像docker pull mysql3:开启容器创建本地存储映射目录:mkdir -p /opt/mysql/data /opt/mysql/logs /opt/mysql/confdocker run -p 3...

2019-09-04 17:05:19 1059

原创 Shell脚本回顾练习笔记

#!/bin/bash#readonly name='wangxiaodong'; 只读变量,不能被unset删除,无法重新赋值定义。name='wang'xiaodo'ng' ;name_array=(reade write yellow black wite blue);echo 'name:'${name};echo "我的名字是:\"${name}\""#出现i或者o的下标...

2019-08-08 10:26:04 96

原创 Shell脚本回顾练习-操作Postgresql数据库。

#!/bin/bashfilename="/tmp/pgtest.txt"host=127.0.0.1user=postgrespassword=postgresport=5432dbname=postgresgettable(){if [ ! -e ${filename} -o ! -s ${filename} ]; then `touch /tmp/pgtest...

2019-08-08 10:17:22 1575

原创 GreenPlum5.20.1在Centos7上的离线安装

GP离线安装整理因为环境特殊原因,在封闭网络下安装GP,此步骤经过自己多次整理验证。系统准备阶段:1:安装UNzip# rpm -ivh (unzip的rpm包名)2:添加修改hosts主机名(单机版没啥必要用ip或者原来的就行)# vi /etc/hosts3:关闭防火墙# systemctl stop firewalld# systemctl disable f...

2019-07-31 10:17:07 650 1

原创 MongoDB 在Centos7下安装部署。

参考:https://docs.mongodb.com/manual/tutorial/install-mongodb-enterprise-on-red-hat/#uninstall-mongodb1:配置yum源vim /etc/yum.repos.d/mongodb-enterprise.repo添加以下内容:[mongodb-enterprise]name=Mongo...

2018-12-22 15:21:55 126

原创 HDFS-NFS

本文主要是自己在调研hdfs-nfs过程中的学习记录NFS原理NFS原理应用介绍:https://www.cnblogs.com/me80/p/7464125.htmlHDFS的NFS原生的HDFS是采用服务器本地磁盘实现,在数据读取上具有很好的本地化优势,但是本地实现方式存在容量使用率低,影响计算等,目前典型的HDFS实现方式主要包括:1:专业存储方式,2:HDFS连接器...

2018-11-08 20:15:27 1740

原创 Mapreuce的Shuffle过程

    熟悉Mapreduce的同学,肯定对Map和Reduce的编写非常的6,那么从你的数据从Mapper类到Reducer类的传输要经过一个过程,这个过程就叫Shuffle,Shuffle过程是个无比重要的过程,它使你的数据从Mapper端出来之后更加整齐,规范,并且相同的Key的数据放在了一起输入到Reducer端,从某种意义上来说,Shuffle是MapReduce的心脏,是奇迹发生的地方...

2018-04-13 17:30:33 241

原创 Job提交到Yarn过程详解

主要组件介绍: Yarn是个资源管理,任务调度的框架,主要包括三大模块:ResouceManager,NodeManager,ApplicationMaster ResouceManager:资源管理器,整个集群资源的协调者,调度者,管理者 NodeManager:NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Contain...

2018-04-10 20:02:23 4848 2

原创 Hadoop-HDFS

HDFS介绍:       HDFS源于Google三篇论文(GFS,Mapreduce,BigTable)中的GFS理论启发而诞生的基于海量数据分布式存储的一种文件系统,HDFS也是Hadoop生态圈最重要的组件之一,他解决了传统数据库对非结构化数据的存储问题,和海量数据存储的问题,一次写入多次读取,是目前大数据存储地位最高的分布式存储文件系统。HDFS的组件:       Client端:客户...

2018-04-10 14:14:17 315

原创 Zeppelin在求学之路----在Zeppelin上开发SendMai功能

功能要求:实现在Spark解释器下,通过自定义功能,调用sendMail(subject,recipients,sql)实现将DataFrame查询结果保存到Hdfs上,并且通过邮件的形式发送给某人,以供后端人员使用。环境:Mac操作系统,Zeppelin0.74;Spark2.1.1,Hadoop2.52,Scala2.11.,Java1.80实现分了三部分很简单,代码上有备注,大家可以直接看备...

2018-04-06 15:43:06 757

原创 Zeppelin求学之路(3)—Zeppelin基本模块介绍和Paragraph源码深入了解以及Note,NoteBook 简介,

Zeppelin基本框架:源码是官方提供的最新的Zeppelin0.74版本。index0:废话:    研究了网上很多大神的佳作,和自己的亲身深入体验,尽自己最大努力讲的清楚一点把。 Index1:基本模块         看图说话:                   Zeppelin-server模块                 Zeppelin-server:整个系统入口,提供服务器功...

2018-03-24 21:21:38 2940

原创 Zeppelin的求学之路(2)——配置Spark解释器,job提交到yarn

1: Spark解释器:Zeppelin  的日常使用中,使用最频繁的或者说目前最重要的解释器非Spark了,下面就说一下Spark解释器的配置。Apache Spark是一种快速和通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark,Spark解释器组由5个解释器组成。上图表格便是五个解释器的简...

2018-03-23 20:40:28 4154

原创 Zeppelin的求学之路(1)—— 简介 和 从源码Build的安装并配置他的Spark解析器

ZeppelinZeppelin的简介 上面的截图就是官网对zeppelin的介绍,简洁明了——基于web端的notebook可以实现数据驱动,交互式数据分析,支持多种数据处理引擎,比如SQL,Scala,Spark,Hive等。当然我理解的Zeppelin就是整合了多种编程语言,比如Java,Scala,SQL,Python等,支持多种数据处理引擎进行数据处理分...

2018-03-22 21:05:18 2106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除