隔壁敲代码的王先生-CSDN博客

原创 Flink流关联频繁更新的维表解决方法探索

目的实时解析处理用户的注册，实名，申额，支用等用户业务流程数据binlog，计算用户生命周期的相应指标到Kudu中，并且需要将当用户指标数据发生变更后也要同时推送到kafka 给其他业务做增量计算，根据这些实时指标，进行后续实时营销等信息推送。背景介绍用户在app上进行简单注册后，会赋值给用户一个userid，但是后续实名等发生具体业务后，会给用户分配一个custno与userid映射关系相关联，接下来用户的所进行的业务例如绑定银行卡，人脸识别，申额，支用，还款等...

2022-02-10 16:50:55 2870

原创优化 count 去重语句查询从一分30秒到500ms

待优化sql：select count(DISTINCT sip) from mining_machine where mining_pool='YES';sql 优化：1：建立非聚集联合索引create index count_sip on public.mining_machine(mining_pool,sip);2：优化后sql；select count(*) from (select sip from mining_machine where mining_pool ='Y.

2020-09-03 17:19:06 404

原创 kafka producer 错误error:Expiring 1 record(s) for logs_from_newa-8: 3000014 ms has passed since last a

做样例数据进kafka中，生产者总是阻塞一段时间后抛出过期error。google说修改request.timeout.ms，尽可能长，减少linger.ms，经过实践，卡住的时间会变得和request.timeout.ms 一样长，还会报错。修改：在本地hosts文件中，添加kafka主机名与其ip的映射关系，问题解决。...

2020-08-04 15:57:20 2790

原创 crontab定时脚本含有 date ‘%’问题导致不生效。

Percent-signs (%) in the command, unless escaped with backslash (\), will be changed into newline characters, and all data after the first % will be sent to the command as standard input.

2020-07-29 11:38:56 730

原创 HDFS块损坏问题。

因为断电，导致hdfs块损坏，ClouderManager 提示块损坏问题。1：寻找损坏的块的路径hdfs fsck / | egrep -v '^\.+$' | grep -v eplica2：寻找每个损坏块的相信信息。会列出每个块的副本的节点信息 /path/to/corrupt/file 为损坏块的路径 hdfs fsck /path/to/corrupt/file -locations -blocks -files3：找到每个损坏块副本分散节点，依次去排查相关问题。4：.

2020-07-21 15:13:43 842

原创 postgresql count(distinct) 优化实践

描述：业务需要查表，该表大约不到四个G，总行数900w条，一个简单的去重的条件查询需要一分钟四十秒，这是不能忍受的。原语句：耗时1m40sselect count(DISTINCT sip) from mining_machine where mining_pool='YES';优化措施：1：首先想到加索引，索引顺序也很重要，根据sql解析顺序 where 解析在前。create index count_sip on public.mining_machine(mining_pool

2020-07-09 17:34:44 2732

原创 ZFS，XFS，BtrFS性能测试

1：通过测试结果可以看到btrfs在有raid5（五块5.5T硬盘组合）情况下，磁盘利用率较高，且在顺序读写上较zfs和单盘xfs文件系统性能突出，但是在有缓存随机读写上表现较zfs差一点，无缓存情况下，只有较单块盘的xfs比较，btrfs顺序读性能是单块xfs10倍，zfs不支持无缓存，无法比较，随机写无缓存以及随机读无缓存与单块xfs性能没有太大差异 ...

2020-03-03 16:22:17 14998

原创 python爬虫携程用车总结

爬取携程用车信息，用的比较传统的模拟浏览器行为方式，主要用payload进行request请求，一步步获取最后的用车列表1：缓存清理问题：根据模拟浏览器行为方式，我们需要从这个页面来选择我们的【租车点】，【租车时间】，【还车时间】，浏览器才能跳转到下一页面，获取下一步的具体租车列表信息。这里遇到的问题就是通过F12我要根据network中页面请求顺序，...

2019-10-17 16:18:19 1051

原创 python项目（非单一.py文件）用Pyinstaller打包发布成exe，在windos上运行程序。

目录一：背景以及项目结构介绍二：实施步骤1：总体思路（1）pyi-makespec -w xxx.py（2）pyinstaller -D xxx.spec2：安装pyinstaller3：具体步骤（以我项目为例子）（1）生成spec文件，并填充内容（2）：开始装修房子（打包exe）。（3）：验证exe三：疑难杂症和需要注意的坑1：打包找不到模块问...

2019-09-30 20:20:18 6171 15

原创 Kubenetes的Master节点和Node节点

学习笔记-摘录Kubeneters权威指南。Master节点： Kubernetes API Server（kube-apiserver），提供了HTTP Rest接口的关键服务进程，是Kubernetes里所有资源的增删改查等操作的唯一入口，也是集群控制的入口进程。 Kubenetes Controller Manager（kube-controller-manager），Ku...

2019-09-11 15:24:50 897

原创 Docker部署Springboot项目连接到PostgreSQL

docker小白的学习笔记，将自己之前做的Springboot项目做成容器进行试验，新建的PG数据库并没有导入数据，但是此过程可用。一：部署 postgresql镜像。1：搜索postgresql镜像。docker search postgres；2：拉取postgres镜像docker pull postgres3：创建本地目录映射到容...

2019-09-10 09:37:30 1481 1

原创 docker安装mysql挂载本地目录并且设置远程登录

学习docker过程的笔记。1：搜索mysql 镜像docker search mysql2：拉取mysql 最新版本镜像docker pull mysql3：开启容器创建本地存储映射目录：mkdir -p /opt/mysql/data /opt/mysql/logs /opt/mysql/confdocker run -p 3...

2019-09-04 17:05:19 1090

原创 Shell脚本回顾练习笔记

#!/bin/bash#readonly name='wangxiaodong'; 只读变量，不能被unset删除，无法重新赋值定义。name='wang'xiaodo'ng' ;name_array=(reade write yellow black wite blue);echo 'name:'${name};echo "我的名字是：\"${name}\""#出现i或者o的下标...

2019-08-08 10:26:04 104

原创 Shell脚本回顾练习-操作Postgresql数据库。

#!/bin/bashfilename="/tmp/pgtest.txt"host=127.0.0.1user=postgrespassword=postgresport=5432dbname=postgresgettable(){if [ ! -e ${filename} -o ! -s ${filename} ]; then `touch /tmp/pgtest...

2019-08-08 10:17:22 1614

原创 GreenPlum5.20.1在Centos7上的离线安装

GP离线安装整理因为环境特殊原因，在封闭网络下安装GP，此步骤经过自己多次整理验证。系统准备阶段：1：安装UNzip# rpm -ivh (unzip的rpm包名）2：添加修改hosts主机名(单机版没啥必要用ip或者原来的就行)# vi /etc/hosts3：关闭防火墙# systemctl stop firewalld# systemctl disable f...

2019-07-31 10:17:07 675 1

原创 MongoDB 在Centos7下安装部署。

参考：https://docs.mongodb.com/manual/tutorial/install-mongodb-enterprise-on-red-hat/#uninstall-mongodb1:配置yum源vim /etc/yum.repos.d/mongodb-enterprise.repo添加以下内容：[mongodb-enterprise]name=Mongo...

2018-12-22 15:21:55 135

原创 HDFS-NFS

本文主要是自己在调研hdfs-nfs过程中的学习记录NFS原理NFS原理应用介绍：https://www.cnblogs.com/me80/p/7464125.htmlHDFS的NFS原生的HDFS是采用服务器本地磁盘实现，在数据读取上具有很好的本地化优势，但是本地实现方式存在容量使用率低，影响计算等，目前典型的HDFS实现方式主要包括：1：专业存储方式，2：HDFS连接器...

2018-11-08 20:15:27 1769

原创 Mapreuce的Shuffle过程

熟悉Mapreduce的同学，肯定对Map和Reduce的编写非常的6，那么从你的数据从Mapper类到Reducer类的传输要经过一个过程，这个过程就叫Shuffle，Shuffle过程是个无比重要的过程，它使你的数据从Mapper端出来之后更加整齐，规范，并且相同的Key的数据放在了一起输入到Reducer端，从某种意义上来说，Shuffle是MapReduce的心脏，是奇迹发生的地方...

2018-04-13 17:30:33 269

原创 Job提交到Yarn过程详解

主要组件介绍： Yarn是个资源管理，任务调度的框架，主要包括三大模块：ResouceManager，NodeManager，ApplicationMaster ResouceManager：资源管理器，整个集群资源的协调者，调度者，管理者 NodeManager：NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Contain...

2018-04-10 20:02:23 4888 2

原创 Hadoop-HDFS

HDFS介绍： HDFS源于Google三篇论文（GFS,Mapreduce，BigTable）中的GFS理论启发而诞生的基于海量数据分布式存储的一种文件系统，HDFS也是Hadoop生态圈最重要的组件之一，他解决了传统数据库对非结构化数据的存储问题，和海量数据存储的问题，一次写入多次读取，是目前大数据存储地位最高的分布式存储文件系统。HDFS的组件： Client端：客户...

2018-04-10 14:14:17 330

原创 Zeppelin在求学之路----在Zeppelin上开发SendMai功能

功能要求：实现在Spark解释器下，通过自定义功能，调用sendMail（subject，recipients，sql）实现将DataFrame查询结果保存到Hdfs上，并且通过邮件的形式发送给某人，以供后端人员使用。环境：Mac操作系统，Zeppelin0.74；Spark2.1.1,Hadoop2.52，Scala2.11.，Java1.80实现分了三部分很简单，代码上有备注，大家可以直接看备...

2018-04-06 15:43:06 771

原创 Zeppelin求学之路（3）—Zeppelin基本模块介绍和Paragraph源码深入了解以及Note,NoteBook 简介，

Zeppelin基本框架：源码是官方提供的最新的Zeppelin0.74版本。index0:废话：研究了网上很多大神的佳作，和自己的亲身深入体验，尽自己最大努力讲的清楚一点把。 Index1:基本模块看图说话： Zeppelin-server模块 Zeppelin-server：整个系统入口，提供服务器功...

2018-03-24 21:21:38 2976

原创 Zeppelin的求学之路（2）——配置Spark解释器，job提交到yarn

1: Spark解释器：Zeppelin 的日常使用中，使用最频繁的或者说目前最重要的解释器非Spark了,下面就说一下Spark解释器的配置。Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark，Spark解释器组由5个解释器组成。上图表格便是五个解释器的简...

2018-03-23 20:40:28 4235

原创 Zeppelin的求学之路（1）—— 简介和从源码Build的安装并配置他的Spark解析器

ZeppelinZeppelin的简介上面的截图就是官网对zeppelin的介绍，简洁明了——基于web端的notebook可以实现数据驱动，交互式数据分析，支持多种数据处理引擎，比如SQL,Scala,Spark,Hive等。当然我理解的Zeppelin就是整合了多种编程语言，比如Java，Scala，SQL,Python等，支持多种数据处理引擎进行数据处理分...

2018-03-22 21:05:18 2117

weixin_41870706的博客