bingoabin-CSDN博客

学会外包，不是让你变成更有效率的工作机器，而是让你可以有更大的自由来安排时间。碎片时间：精力饱满+ 任务单一，时间不完整 —— 比如等车，排队。知识管理悖论，本质问题是时间管理，重要-不紧急，最容易被拖延。低潮时间：时间完整 + 任务单一，精力不饱满 —— 午饭后。隐藏时间：时间完整 + 精力饱满，任务不单一 —— 开会。瀑布时间：三者都具备 —— 熬夜，夜里是瀑布时间。隐藏时间：精力饱满 + 时间完整，任务不单一。同样的工作，为什么有的人高效又轻松？人的成长，就是影响圈不断扩大的过程。

2023-06-23 17:22:48 677

原创 c++数据类型输入输出

c++语法

2023-02-12 19:36:38 633

原创 html css js

html文件结构说明标签HTML 元素表示一个 HTML 文档的根（顶级元素），所以它也被称为根元素。所有其他元素必须是此元素的后代。标签HTML head 元素规定文档相关的配置信息（元数据），包括文档的标题，引用的文档样式和脚本等。标签HTML body 元素表示文档的内容。document.body 属性提供了可以轻松访问文档的 body 元素的脚本。标签。

2022-12-09 18:25:27 756

原创 sql整理

sql整理

2022-10-24 10:10:07 323 1

原创 sql整理

sql整理

2022-10-24 10:08:48 237

原创 RDD算子

RDD算子算子分类#1、transformation（转换）#根据已经存在的rdd转换生成一个新的rdd, 它是延迟加载，它不会立即执行例如:map / flatMap / reduceByKey 等#2、action (动作)它会真正触发任务的运行将rdd的计算的结果数据返回给Driver端，或者是保存结果数据到外部存储介质中例如:collect / saveAsTextFile 等transformation算子转换

2021-06-12 01:48:47 548

原创 kudu table

kudukudu介绍Kudu背景#在 KUDU 之前，大数据主要以两种方式存储：##可以更快地访问批量数据集（高吞吐量），而不是该数据集中的特定记录（低延迟）静态数据：以 HDFS 引擎作为存储引擎，适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。动态数据：以 HBase、Cassandra 作为存储引擎，适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如 HDFS，不适用于批量数据分析的场景。#从上面分析可知，这两种数据在存储方式上完全不同，进而导致使用

2021-06-05 16:52:23 441

原创 keepalived

说明`Keepalived VIP`是实现高可用性的一种轻量级技术手段，主要用来防止单点故障，主要方法是`通过实现虚拟IP对连接的节点进行漂移`,也就是说`服务只需要连接虚ip就可以`，实际上连接的是`虚ip`指定的真实服务，避免了`单点问题`。我们默认`KDC和LDAP`的虚拟ip是172.21.139.250。配置VIP需要有一个虚IP，这个IP是局域网内一个合法的IP，同时不能被ping通。配置VIP需要配置`keepalived.conf`和外部进行状态检测的脚本，这里提供我们的配置作为参考：`

2021-05-24 09:37:36 454

原创 hive小文件治理

hive小文件治理背景hive中的数据最终落地到HDFS上，在HDFS上不可避免的有小文件产生，小文件问题，会产生诸多问题，比如：1.对底层存储HDFS来说，HDFS本身就不适合存储大量小文件，小文件过多会导致namenode元数据特别大, 占用太多内存，严重影响HDFS的性能2.对hive来说，在进行查询时，每个小文件都会当成一个块，启动一个Map任务来完成，而一个Map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的Map数量是受限的。原因产生小文件

2021-05-02 10:55:49 418 1

原创正则表达式

正则表达式一些规则#限定符? 比如used？表示d可以出现0次或者1次* 表示出现0次或多次字符比如ab*c 表示ac中间只能出现0个或者多个b+ 表示出现1次以上的字符比如ab+c 表示ac中间至少出现一个b abc abbbbbbc{2,6} 表示精确出现的次数比如ab{2,6}c,表示ac中间有只有2-6个b,如果想表示2次以上，可以把6省略,{2,}#上面的只是判断前面一个字符，如果想表示多个字符，可以用（）括起来(ab)+ 表示至少出现ab 一次以上

2021-04-24 21:32:56 452 3

原创 Prometheus & Grafana

普罗米修斯 Prometheus介绍#Prometheus是一个时间序列数据库。但是，它不仅仅是一个时间序列数据库。#它涵盖了可以绑定的整个生态系统工具集及其功能。Prometheus主要用于对基础设施的监控。包括服务器，数据库，VPS，几乎所有东西都可以通过Prometheus进行监控。Prometheus希望通过Prometheus配置中定义的某些端点执行的HTTP调用来检索度量标准。工作流程Prometheus server 定期从配置好的 jobs 或者 exporters 中拉 m

2021-04-18 15:35:46 396

原创数据库与缓存双写一致性

数据库与缓存双写一致性背景#首先，缓存由于其高并发和高性能的特性，已经在项目中被广泛使用。在读取缓存方面，大家没啥疑问，都是按照下图的流程来进行业务操作。#但是在更新缓存方面，对于更新完数据库，是更新缓存呢，还是删除缓存。又或者是先删除缓存，再更新数据库，其实大家存在很大的争议。目前没有一篇全面的博客，对这几种方案进行解析。策略#先做一个说明，从理论上来说，给缓存设置过期时间，是保证最终一致性的解决方案。#这种方案下，我们可以对存入缓存的数据设置过期时间，所有的写操作以数据库为准，对缓存操

2021-04-10 10:45:21 322

原创 mysql元数据解析hive表结构

1.mysql表中元数据dbs表CREATE TABLE `dbs` ( `DB_ID` bigint(20) NOT NULL, `DESC` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL, `DB_LOCATION_URI` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin NOT NULL, `NAME` varchar(128) CH

2021-04-10 10:41:54 396

原创 kerberos

kerberos通俗解释介绍Kerberos是一种网络认证协议，其设计目标是通过密钥系统为客户机/服务器应用程序提供强大的认证服务，该认证过程的实现不依赖于主机操作系统认证，需要基于主机地址的信任，不要求网络上所有主机的物理安全，并假定网络上传送的数据包可以被任意地读取、修改和插入数据。在以上情况下，Kerberos作为一种可信任的第三方认证服务，是通过传统的密码技术(如:共享密钥)执行认证服务的。组件• Client• Server• KDC(Key Distribution C

2021-04-03 11:07:18 433

原创大数据架构

大数据常用的架构随着多年的大数据的技术发展和积累，越来越多的人发现各个公司所使用的大数据技术大致可以分为两大类，分别是离线处理技术和实时处理技术，要么个别公司只有离线处理技术，要么个别公司只有实时处理技术，但是绝大部分公司基本上都是两种技术架构都带着一起在做，以为我们的业务lambda架构基本介绍业务系统基本流程介绍lambda架构基本介绍lambda架构最早是由storm的创始人，Nathan Marz进行提出并描述了我们目前所了解的lambda架构，其实lamda架构先入为主，已经适用在了绝

2021-03-16 10:27:25 670 2

原创 python自学记录

python基础jupyter使用#注意:1.添加虚拟环境，conda create --name python34 python=3.42.切换环境，启用Anaconda Prompt，activate python342.克隆环境，conda create --name [虚拟环境名] -- clone [colne的环境]3.卸载环境，conda remove --name python34 --all4.安装包，pip install requests5.卸载包，pip u

2021-01-28 16:17:50 443

原创 scala理解可变与不可变

我们定义变量的时候分为var可变变量和val不可变变量。我们使用容器的时候也分为可变容器和不可变容器。List和Tuple本身就是不可变的，set和map分为可变和不可变的，默认为不可变。//不报错var list = scala.collection.immutable.List（“Hello”，“World”）;list += “Scala”;//报错val list = ...

2020-03-05 17:38:11 950 4

原创泛型

泛型好处：1.可以统一数据类型，便于操作。2.将运行时的异常提前到了编译时，提高了效率。3.避免了强制类型转换4.实现代码的模板化，把数据类型当作参数传递，提高了可重用性。泛型种类：E：元素（Element），多用于java集合框架K：关键字（Key）N：数字（Number）T：类型（Type）V：值（Value）使用注意点：泛型类可能有多个参数，此时应将多个参...

2020-02-28 21:12:47 385

原创 solidity

1、stringpragma solidity ^0.4.0;contract StringTest{ string name = "xms"; function getName() public view returns(string){ return name; } function setName(string _name) publi...

2020-01-31 01:53:51 450

原创 shell

1.1、变量：解析器：/bin/bash #! /bin/bash变量：A=5 echo $A export A 提升为全局变量$n $0 脚本名称 $1-$9代表第一个到第九个参数$# 获取所有输入参数个数$* 命令行中所有的参数，把命令行看成一个整体$@ 命令行中所有参数，不过每个参数区分开来$? 最后一次...

2019-12-28 08:49:40 294

原创 socket

socket聊天服务端package com.epoint.proxy;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.ServerSocket;import java.net.Socket;public class TCPTra...

2019-11-26 23:57:29 219

原创 Kafka 消费者scala

1、HDPKafkaTestConsumer.scalapackage com.epoint.bigdata.consumerimport scala.reflect.runtime.universeimport scala.util.parsing.json.JSONimport org.apache.kafka.common.serialization.StringDeseria...

2019-04-28 09:36:23 1948

原创 kafka生产者消费者java

1、HDPEpointKafkaUtil.javapackage com.epoint.core.utils.hadoop;import java.util.Properties;import org.apache.hadoop.conf.Configuration;import org.apache.kafka.clients.producer.KafkaProducer;imp...

2019-04-28 09:32:43 489

原创 Hadoop HA

1、省略部分jdk、ssh互信、ntpd、hadoop2.7.6下载、zookeeper部署2、修改文件hadoop-env.sh mapred-env.sh yarn-env.sh中添加java_homecore-site.xml <property> <name>fs.defaultFS</name> <va...

2019-04-27 16:38:32 287

原创 Kafka记录

1、Kafka描述Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。消息队列，拥有先进先出的特性，异步通信机制，包含详细的数据说明，数据产生时间，数据类型等消息队列作用：应用解耦，异步处理，数据限流，消息通信。设计初衷：高吞吐量、高可用...

2019-04-27 16:30:13 489

原创 flume+kafka+storm

1. 需求将mysql增量变化的数据，实时的插入到postgresql数据库中，方法有多种实现，这里采用通过flume配置mysql的数据库源，然后flume采集到mysql的增量数据，作为kafka的生产者，然后进入kafka短暂存储，storm作为kafka的消费者，消费到kafka中的增量mysql数据，进行处理，插入到postgresql中。整个实验环境在HDP环境中，也可以自行搭建...

2019-02-22 02:17:58 1800

翻译数据同步

1. 应用场景业务数据发展到一定水平，需要将大部分冷热数据从熟悉的DB迁移到其他存储进行复杂查询和分析分库分表后，某些报表类查询无法工作，需要汇总到单库表进行操作分库分表有多个维度，需要拷贝多份数据达成冗余通过伪数据共享（没办法引入MQ、无法共享库表）进行业务改造慢存储–&gt;Cache之间的同步不停服数据迁移/scheme变更导数据导数据很多时候，DataBus提供的仅仅...

2019-02-22 01:50:04 1556

原创 debezium

1. 简介官网地址：https://debezium.io/docs/Debezium是一个开源项目，为捕获数据更改(Capture Data Change，CDC)提供了一个低延迟的流式处理平台，通过安装配置Debezium监控数据库，可以实时消费行级别(row-level)的更改。身为一个分布式系统，Debezium也拥有良好的容错性。Debezium的源端(即支持监控哪些数据...

2019-02-22 01:11:51 5020

原创 CXF

1. 概述首先Web Service它不是一种框架，也不是一种技术，而是一种跨平台、跨语言的规范。当我们遇到这样一个场景的时候：不同平台，不同语言所编写的应用之间如何相互的调用？通俗的说，就是假如java中有如下的方法，public List getCatsByUser(User user)，现在我们要在另外一个平台，有一个C语言编写的程序，想要调用上面的getCatsByUser方法。这让...

2019-01-27 23:40:31 1369

原创 Spark日志分析

1. 概述当浏览器请求服务器时，如果在服务器上设置了访问日志，就会记录下用户的访问记录。在日志里，通常包含大量的信息，但是这些信息不太容易被利用，这里我们通过对Apache的access.log日志进行分析，来进一步的学习Spark下的程序开发。2. 假定需求假设给我们提供一份apache的access.log文件，根据业务需求，我们需要分析得到以下几方面的需求：1.统计每天的页面访...

2019-01-27 23:21:43 6161

原创 Blob

一、思路：1.准备mysql数据正常字段加上照片blob流数据2.流数据落地到HDFS生成具体文件3.从HDFS生成目录数据保存到MPP指定表的字段中4.通过MPP代码，读取到HDFS中落地的照片二、操作步骤：1.mysql数据准备 192.168.186.13:3306 root/Gepoint bigdata_scene03_rktj/t_rk_bas...

2019-01-03 10:11:20 742

原创 HBase thrift2

一、简介Thrift server是HBase中的一种服务，主要用于对多语言API的支持。基于Apache Thrift（多语言支持的通信框架）开发，目前有两种版本thrift和thrift2。thrift2是当时为了适应新的Java API，提出来的。由于种种原因，thrift2没有完美兼容并替代thrift，所有就留下了两个版本。Thrift2没有DDL方面的接口，所以现在Hue还是用T...

2019-01-03 09:59:32 2949 1

原创 Kylin

一、技术架构Apache kylin系统可以分为在线查询和离线构建两部分，技术架构如图所示，在线查询的模块主要处于上半区，而离线构建则处于下半区。从图中可以看出，数据源在左侧，主要是Hadoop Hive，保存着待分析的用户数据。下方构建引擎从数据源抽取数据，并构建Cube。数据以关系表的形式输入，MapReduce是当前主要的构建技术。构建后的Cube保存在右侧的存储引擎中，一般选用HBa...

2018-12-22 13:38:44 601

原创 phoenix索引

1. 介绍二级索引这个特性应该是大部分用户引入Phoenix主要考虑的因素之一。HBase因其历史原因只支持rowkey索引，当使用rowkey来查询数据时可以很快定位到数据位置。现实中，业务查询需求条件往往比较复杂，带有多个查询字段组合，如果用HBase查的话，只能全表扫描进行过滤，效率很低。而Phoenix支持除rowkey外的其它字段的索引创建，即二级索引，查询效率可大幅提升。为什...

2018-12-16 01:55:52 4642 2

原创流数据

一、架构思路思考一下，正常情况下我们会如何收集并分析日志呢？首先，业务日志会通过Nginx（或者其他方式，我们是使用Nginx写入日志）每分钟写入到磁盘中，现在我们想要使用Spark分析日志，就需要先将磁盘中的文件上传到HDFS上，然后Spark处理，最后存入Hive表中，如图所示：我们之前就是使用这种方式每天分析一次日志，但是这样有几个缺点：首先我们的日志是通过Nginx每分钟存...

2018-12-09 11:03:52 2609

原创 mysql集群

一、优缺点在使用mysql集群之前，先仔细了解mysql集群的优缺点，在应用场景中充分发挥集群的优点，才能把mysql集群技术用到刀刃上。描述优点a) 99.999%的高可用性b) 快速的自动失效切换c)灵活的分布式体系结构，没有单点故障d)高吞吐量和低延迟e)可扩展性强，支持在线扩容缺点a)存在很多限制，比如：不支持外键b)部署、管理、配置很复杂c)占用磁盘空间大...

2018-11-20 22:14:52 3601

原创 mysql

一、centos6的mysql在linux系统上，需要存放一些数据，进行对一些数据的存放，查询等，因此我们需要在linux系统上搭建数据库。如果在linux系统上，安装了mysql，想替换mysql的版本，需要先卸载已安装的mysql版本，然后重新安装新版本。1. 部署Centos 6.x下在线安装Mysql很简单：yum list mysql-server如果yum list mys...

2018-11-20 22:04:53 287

原创 mongodb

一、mongodbMongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似...

2018-11-20 21:50:43 336

原创 SVN

一、客户端在一个局域网内，如果一个组长，需要管理一个组的文件，比如组长说：把你们最近的工作给我一个反馈，整理成文档。那么通常的办法就是每个人拿个U盘，拷贝了再拷贝到组长电脑上，或者通过QQ传送，不管这两种方法都麻烦，U盘拷贝耗时耗力，用QQ传送，组长要进行整理，这是谁整理的文档，归类等等。并且如果程序员要管理代码的话，那不就是文档能比的了，工作量会大大增加，那么这里给你分享一个SVN工具，用于管...

2018-11-20 18:21:23 291

presto集成到ambari

flume+kafka+sparkstreaming

phoenix连接hbase驱动包

presto-cli-0.191-executable.jar

livy-rsc-0.5.0-incubating.jar

空空如也