自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

tianyeshiye

天之道,损有余而补不足.人之道,则不然,损不足以奉有余.孰能有余以奉天下?唯有道者...

原创 BigData - " 时 空 " 思想 (待续中)

思想 :时间和空间的平衡一直都是软件开发过程中永恒的话题 架构师的设计中 一直都有计算时间 和 存储空间 的平衡工作 在大数据领域里面,这个思想尤为突出。 实例 举例说明几种时空思想的利用实例 1, 压缩 压缩的本质就是利用CPU的处理时间,换取磁盘的存储空间。 2,预查询 ...

2019-04-12 17:11:51 132 0

原创 悟 - 软件工程 各种架构理解

Service Mesh 就是为了解耦*(数据层 和 控制层),有多抽象出来了一层 软件架构里面有句俗语,任何事情是没有再抽象出一层解决不了的,如解决不了,那就再多抽象出一层 Service less Serverless(无服务器架构)并不意味着没有任何服务器去运行代码,Serve...

2019-03-29 17:29:14 174 0

原创 悟 - 带头大哥 应该拥有的关键行为,思想

做事 1,海纳百川,有容乃大 尽最大能力的发挥出 队员 的能力及优点 2,让利 对外,不揽功;对内,让利给队员; 3,责任 对外,一切责任一身肩;对内,划分好责任,奖罚分明。 考虑问题 1:换位思考是基础 2:从时间和空间的角度去考虑问题 ex:换一个空间环境,人的...

2019-03-27 17:07:24 58 0

原创 大数据框架、概念等 简短总结 (持续总结中)

数据仓库  更关注数据分析层面(OLAP) 一次写入、多次读取 HDFS 分布式文件系统 HDFS适合批处理场景,不支持数据随机查找,不适合增量数据处理且不支持数据更新 Habse 分布式文件系统的动态查询,HDFS的随机读写操作 HBase并不适合传统的事物处理程序或关联分析,不支...

2018-08-29 23:30:56 327 0

原创 Book Collection

Essential Netty in Action 《Netty 实战(精髓)》 https://github.com/waylau/essential-netty-in-action Essential Netty in Action 《Netty 4.x 用户指南》 https://gi...

2018-06-26 21:54:43 106 0

原创 编程思想总结 - 堆排序,少做无用功

堆排序,用于解决一下通用问题消费前十名总成绩最好的前十名思想源自吴军

2018-06-26 20:27:37 99 0

原创 编程思想总结 - 分解问题,解决问题

1, 先把问题理解清楚       确认好场景,考虑的因素       沟通并确认好已知2, 基于已知信息,分解问题        在已知的基础上,把一个问题分解成几个子问题3, 解决问题 (避免做无用功)        解决子问题,找到更好的解决方法4, 基于分布的子问题解决,重构解决方案, 全...

2018-04-15 13:05:03 357 0

转载 spring boot 打成jar包后 获取通过命令行传入的参数

方式一: java -jar xx-1.1.2.RELEASE.jar aaa bbb cccc 通过main方法的参数获取: System.out.println("java -jar xxx.jar aaa bbb cccc 方式传参:"+args[0]+"...

2020-05-13 10:04:20 37 0

转载 CentOS7 使用yum命令安装Java SDK(openjdk)

CentOS 6.X 和 7.X 自带有OpenJDK runtime environment(openjdk)。它是一个在linux上实现开源的java 平台。 安装方式: 1、输入以下命令,以查看可用的JDK软件包列表; yum search java | grep -i --color...

2020-05-12 14:58:45 60 0

转载 [系统架构] ElasticSearch详解

0. 带着问题上路——ES是如何产生的? (1)思考:大规模数据如何检索? 如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题: 1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…) 2)如何解决...

2020-03-27 11:10:14 72 0

转载 数据治理 - 数据仓库 解释

一、数据仓库 数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。 l 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。 l 集成:数据仓库中数据来源于各个离散的业务系统数据库、外部数...

2020-03-04 13:44:38 172 0

转载 数据治理 - 漫谈数据仓库之维度建模

概述 数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容: 以Hadoop、Spark、Hive等组建为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。 我们暂且不管数据仓库...

2020-03-03 20:54:37 160 0

转载 数据治理 - 数据仓库历史数据存储 - 拉链表

什么是拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 我们先看一个示例,这就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历...

2020-03-03 15:27:39 118 0

转载 【大数据安全】基于Kerberos的大数据安全验证方案

1.背景 互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。 近几年,在thehackernews等网站上总会时不时看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件...

2020-01-16 13:57:09 197 0

转载 kerberos认证原理---讲的非常细致,易懂

前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于一个没有完全不了解Kerberos的人来说,Kerberos的整个Authentication过程确实不好理解——一会儿以...

2020-01-16 13:39:02 94 0

转载 开源大数据平台如何才能保证身份认证安全?Kerberos

在古希腊神话中,Kerberos是住在冥河岸边的三头犬,负责看守冥界的入口。而在信息技术界,Kerberos是一种被广泛采用的网络认证协议,通过对称加密的技术,保护网络系统的安全。特别是在Hadoop开源大数据平台,Kerberos是内置支持的安全的用户认证方式。它可以独立于各服务组件,保证只有通...

2020-01-16 13:27:39 199 0

转载 CentOS中环境变量和配置文件

https://www.cnblogs.com/woshimrf/p/shell-environment.html /etc/profile $HOME/.bash_profile $HOME/.bashrc $HOME/.bash_login $HOME/.profile

2019-11-28 16:09:39 32 0

转载 rancher跟k8s有那些不同

rancher: 1、采用图形化方式:易用的Web管理界面,在Docker易用性的基础上,再一次降低了使用容器技术部署容器应用的难度。 2、支持多种调度器:通过环境模板,很容易地创建和部署Cattle、Swarm、K8S、Mesos容器集群管理调度平台。 3、管理主机集群:管理对象是多台主机...

2019-11-18 16:36:43 41 0

转载 (验证过)使用Win10系统远程桌面连接CentOS7系统方法 CentOS7使用GNOME Desktop可视化桌面

1.CentOS安装桌面 在安装系统时如果没有选用最精简安装的话,可以在装系统时候默认安装GNOME,如果忘记此步骤了可以使用 # yum -y groups install "GNOME Desktop" # startx #进入图形界面 2.安装相关软件 ...

2019-11-15 14:50:50 36 0

转载 现在真是简单至极了 - SpringBoot之使用JPA完成简单的rest api

一、 前言 在前面我们已经知道在springboot中如何使用freemark与thymeleaf之类的视图模板引擎去渲染我们的视图页面,但是没涉及跟数据库交互的东西,所以今天在这里我们将介绍了一下如何在springboot中通过spring data jpa操作mysql数据库,并且构建一套简...

2019-11-14 11:39:26 34 0

转载 数据仓库

数据仓库 1 . 数据仓库的基本概念 数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,...

2019-11-13 17:38:10 28 0

转载 YAML 语言教程

YAML 语言教程 http://www.ruanyifeng.com/blog/2016/07/yaml.html

2019-10-31 15:27:37 30 0

转载 【Docker&VM】docker容器与虚拟机有什么区别?

各种虚拟机技术开启了云计算时代;而Docker,作为下一代虚拟化技术,正在改变我们开发、测试、部署应用的方式。那虚拟机与Docker究竟有何不同呢? 首先,大家需要明确一点,Docker容器不是虚拟机! 第一次接触Docker的时候,我把它比做一种轻量级的虚拟机。这样做无可厚非,因为Docke...

2019-10-29 15:45:52 77 0

转载 Docker与VM虚拟机的区别以及Docker的特点

一、本质上的区别: VM(VMware)在宿主机器、宿主机器操作系统的基础上创建虚拟层、虚拟化的操作系统、虚拟化的仓库,然后再安装应用; Container(Docker容器),在宿主机器、宿主机器操作系统上创建Docker引擎,在引擎的基础上再安装应用。 那么问题来了,没有操作系统,怎么...

2019-10-29 10:34:36 28 0

转载 k8s-存储篇

本章目录 存储分类 emptydir hostpath pvc,pv,nfs 一 k8s存储分类   我一直相信画出图来再去了解比较直观,下面是我总结的k8s存储的分类,供参考   k8s的存储常用的就是上面几种模式,分为临时存储,半持久化存储,与持久化存储这三类,本章我们着重讲解...

2019-10-22 11:44:36 121 0

转载 敏捷开发优点和缺点

https://blog.csdn.net/jpmsdn/article/details/94625843 一、敏捷开发技术的几个特点和优势: 1.个体和交互胜过过程和工具 2.可以工作的软件胜过面面俱到的文档 3.客户合作胜过合同谈判 4.响应变化胜过遵循计划 二、敏捷开发技术的12...

2019-10-15 13:20:58 817 0

转载 linux 新添加的硬盘格式化并挂载到目录下

https://www.cnblogs.com/jyzhao/p/4778657.html https://www.cnblogs.com/ddbear/p/7009736.html 需求: 新增加一块硬盘sdb,将sdb分区,只分一个区,格式化,挂载到目录/ssd下。 1、 查看现在...

2019-09-17 18:58:34 72 0

转载 (验证过)centos7系列安装vnc服务并授权用户访问

https://blog.51cto.com/shaonian/2090283 今天心情不错 写个文章把,好久没写了,今天无聊看了半天内涵段子笑了半天,也每人找 我玩,就写了一个博客,希望你们能看懂,不懂的可以联系我。 由于最近服务器流量偏高导致一些问题,需要给网络组那边弄一台机器,...

2019-09-12 16:45:09 84 0

转载 Azure SQL 数据库与 SQL Server 功能比较

Azure SQL 数据库与 SQL Server 共享一个通用代码库。在 SQL server 和 Azure SQL 数据库中, 大多数标准 SQL 功能是相同的。SQL Server 和所有类型的 Azure SQL 数据库中常见的功能如下: 语言功能-控制流语言关键字、游标、数据类型、D...

2019-09-02 11:06:29 642 0

原创 概念 : ODS 、数据仓库

数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support) ODS...

2019-08-29 17:16:59 85 0

转载 谈MDM主数据管理系统、BI、大数据、SOA之间的关系

随着“大数据”技术广泛流传,而MDM、BI、SOA相关技术已经弱化,这是从一些程序员那听到的声音,今天就想捋捋这四者之间的关系。作为一个售前咨询人员来讲,理清这四者之间的关系还是很有必要的,因为在交流或者编写解决方案时还是会遇到这类场景。 BI和大数据   首先看看BI和大数据之间的关系,...

2019-08-29 14:37:08 564 0

转载 ETL常用的三种工具介绍及对比Datastage、Informatica、Kettle

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及ETL常用的三种工具(Datast...

2019-08-20 13:10:08 768 0

转载 再谈全局网HBase八大应用场景

HBase概述 HBase是一个分布式存储、数据库引擎,可以支持千万的QPS、PB级别的存储,这些都已经在生产环境验证,并且在广大的公司已经验证。特别是阿里、小米、京东、滴滴内部都有数千、上万台的HBase集群。选择一个技术的首要条件是对齐大公司,大公司会投入大量的人力去维护、改进、贡献社区。 ...

2019-07-31 14:04:50 43 0

转载 HBase Phoenix助力海量数据实时分析

前言 phoenix这个项目我一直接触不多,在去年接触的一家公司使用phoenix分析数百亿的记录并且在秒级别返回的延迟时,笔者才慢慢探究一些phoenix的内幕。上个星期跟一位phoenix的PMC&Committer聊了聊phoenix的定位及未来的发展,发现phoenix还是比较竞...

2019-07-31 13:35:29 336 0

转载 kafka connect简介以及部署

1、什么是kafka connect? 根据官方介绍,Kafka Connect是一种用于在Kafka和其他系统之间可扩展的、可靠的流式传输数据的工具。它使得能够快速定义将大量数据集合移入和移出Kafka的连接器变得简单。 Kafka Connect可以获取整个数据库或从所有应用程序服务器收集...

2019-07-30 09:39:28 3363 0

转载 Kafka 与 日志文件 的 前世今生

数据库系统需要保证数据的稳定性,为了确保修改的数据能够写入库,通常会在更改数据之前先在磁盘里写一条日志文件,大致上的格式是“时间戳:做了什么操作”。如果此后因为故障导致数据本身没有被更改,系统可以根据日志文件一条一条地重新执行操作,让数据恢复到应该恢复的状态。 后来有人意识到,这个日志的恢复功能...

2019-07-30 09:11:09 55 0

转载 导出导入grafana完整的dashboard(非单个图表)

导出 导入

2019-07-29 16:23:04 43 0

转载 Java加载数据库连接驱动 Class.forName 作用

JDBC提供的DriverManager类用于跟踪所有可用的JDBC驱动,并在用户需要时选择合适的驱动提供给用户 但是其跟踪不是自动的,必须由可用的JDBC驱动的Driver类自己在DriverManager上进行注册 但是这个注册过程一般是由Driver类加载的时候自动完成的 Cla...

2019-07-29 14:16:12 67 0

转载 Spark调优 | Spark SQL参数调优

前言 Spark SQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在spark-sql中使用set -v 命令显示当前spark-sql版本支持的参数。 本文讲解最近关于在参与hive往spark迁移过程中遇到的一些参数相关问题的调优。 内容分...

2019-07-29 10:51:13 55 0

转载 Spark:几种给Dataset增加列的方式、Dataset删除列、Dataset替换null列

几种给Dataset增加列的方式 首先创建一个DF对象: scala> spark.version res0: String = 2.2.0.cloudera1 scala> val df = spark.createDataset(Seq(("key1",...

2019-07-25 14:10:47 350 0

提示
确定要删除当前文章?
取消 删除