自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop - YARN Introduce

YARN Introduce1. MapReduce1.0缺陷(1)存在单点故障(2)JobTracker“大包大揽”导致任务过重(任务多时内存开销大,上限4000节点)(3)容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)(4)资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)2. YARN体系结构MapRe...

2019-08-14 17:06:00 278

原创 越来越火的图数据库究竟是什么?

越来越火的图数据库究竟是什么? 随着社交、电商、金融、零售、物联网等行业的快速发展,现实社会织起了了一张庞大而复杂的关系网,传统数据库很难处理关系运算。大数据行业需要处理的数据之间的关系随数据量呈几何级数增长,亟需一种支持海量复杂数据关系运算的数据库,图数据库应运而生。世界上很多著名的公司都在使用图数据库。比如:社交领域:Facebook, Twi...

2019-02-21 18:33:00 1035

原创 使用Atlas进行元数据管理之容错和高可用

1. 介绍Apache Atlas使用各种系统并与之交互,为数据管理员提供元数据管理和数据血缘信息。通过适当地选择和配置这些依赖关系,可以使用Atlas实现高度的服务可用性。本文档介绍了Atlas中的高可用性支持状态,包括其功能和当前限制,以及实现此高级别可用性所需的配置。在高级架构章节(请参阅我翻译的《Atlas开发指南(中文版)》)概述了构成Atlas的各种组件。下面提到的各种组...

2018-12-02 17:16:00 699

原创 使用Atlas进行元数据管理之Atlas简介

背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获。元数据管理系列文章:[0] - 使用Atlas进行元数据管理之Atlas简介[1] - 使用Atlas进行元数据管理之Glossary(术语)[2] - 使用Atlas进行元数据管理之Type(类型)0. 当我们谈论数据治理/元数据管理...

2018-11-19 23:02:00 3015

原创 使用Atlas进行元数据管理之Type(类型)

背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获。元数据管理系列文章:[0] - 使用Atlas进行元数据管理之Atlas简介[1] - 使用Atlas进行元数据管理之Glossary(术语)[2] - 使用Atlas进行元数据管理之Type(类型)1. 概述Atlas允许用户为他们...

2018-11-19 21:09:00 1636

原创 使用Atlas进行元数据管理之Glossary(术语)

背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获。元数据管理系列文章:[0] - 使用Atlas进行元数据管理之Atlas简介[1] - 使用Atlas进行元数据管理之Glossary(术语)[2] - 使用Atlas进行元数据管理之Type(类型)1. Glossary(术语表) 介...

2018-11-15 22:13:00 1332

原创 【大数据安全】基于Kerberos的大数据安全验证方案

1.背景互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。近几年,在thehackernews等网站上总会时不时看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件。在Hadoop1.0.0之前,Hadoop并不提供对安全的支持,默认集群内所有角色都是可靠的。...

2018-11-03 20:40:00 532 1

原创 【大数据安全】CDH集群禁用Kerberos

在调试Kerberos的时候可能会有需要禁用的场景。以下是各组件禁用Kerberos的相关配置。环境CDH版本:5.11.2Linux版本:7.4.1708Docker版本:Docker version 18.06.0-ceJDK版本:1.8ZookeeperenableSecurity (Enable Kerberos Authentication) : fals...

2018-09-17 13:52:00 757

原创 【大数据安全】Apache Kylin 安全配置(Kerberos)

1. 概述本文首先会简单介绍Kylin的安装配置,然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin。Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.2 环境说明CDH版本:5...

2018-09-14 18:22:00 1205

原创 打造MacOS版“XShell”

1.背景XShell作为一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。作为server端开发,几乎是必备工具了。很多刚切换到MacOS环境下的萌新都会面临一个尴尬的问题:XShell并没有提供MacOS版本,在NetSarang(XShell的爸爸)论坛里群众们也已经向官方呐喊很多年了,却迟迟不见NetSaran...

2018-08-14 15:29:19 3016

原创 【大数据安全】Kerberos集群安装配置

1. 概述Kerberos是一种计算机网络认证协议,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。它也指由麻省理工实现此协议,并发布的一套免费软件。它的设计主要针对客户-服务器模型,并提供了一系列交互认证——用户和服务器都能验证对方的身份。Kerberos协议可以保护网络实体免受窃听和重复攻击。Kerberos协议基于对称密码学,并需要一个值得信赖的...

2018-08-11 18:57:00 636

原创 深入浅出JWT(JSON Web Token )

1. JWT 介绍JSON Web Token(JWT)是一个开放式标准(RFC 7519),它定义了一种紧凑(Compact)且自包含(Self-contained)的方式,用于在各方之间以JSON对象安全传输信息。 这些信息可以通过数字签名进行验证和信任。 可以使用秘密(使用HMAC算法)或使用RSA的公钥/私钥对对JWT进行签名。虽然JWT可以加密以提供各方之间的保密性,但我...

2018-05-05 12:19:00 936

原创 [机器学习实战]决策树

1. 简介决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法I...

2018-04-21 11:27:00 238

原创 [机器学习Lesson4]多元线性回归

1. 多元线性回归定义在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。我们现在介绍方程的符号,我们可以有任意数量的输入变量。这些多个特征的假设函数的多变量形式如下:hθ(x)=θ0+θ...

2018-04-18 09:01:00 850

原创 [机器学习实战]K-近邻算法

1. K-近邻算法概述(k-Nearest Neighbor,KNN)K-近邻算法采用测量不同的特征值之间的距离方法进行分类。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。优点:精度高、对异常数据不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。KNN工...

2018-04-11 00:20:00 161

原创 [机器学习Lesson3] 梯度下降算法

1. Gradient Descent(梯度下降)梯度下降算法是很常用的算法,可以将代价函数J最小化。它不仅被用在线性回归上,也被广泛应用于机器学习领域中的众多领域。1.1 线性回归问题应用我们有一个函数J(θ0,θ1),要使其最小化minJ(θ0,θ01):Outline对θ0,θ1开始进行一些猜测通常将初θ0,θ1初始化为0在梯度算法中,要做的就是不停的一点点改变θ...

2018-04-09 23:41:00 282

原创 [机器学习Lesson 2]代价函数之线性回归算法

本章内容主要是介绍:单变量线性回归算法(Linear regression with one variable)1. 线性回归算法(linear regression)1.1 预测房屋价格下图是俄勒冈州波特兰市的住房价格和面积大小的关系:该问题属于监督学习中的回归问题,让我们来复习一下:监督学习(Supervised'Learning'):对示例数据给出“正确答案”。...

2018-03-26 23:33:00 358 2

原创 [机器学习Lesson 1] 机器学习简介

1. Machine Learning definition(机器学习定义)Arthur Samuel(1959年)将机器学习非正式定义为:在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。创造西洋棋程序,可以和自己对战。Tom Mitchell(1998年)提出一个更为正式关于机器学习的定义 :对于一个计算机程序来说:给它一个任务T和一个性能测量方法P,如果在...

2018-03-26 10:03:00 195

原创 Flume - Kafka日志平台整合

1. Flume介绍Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。agentagent本身是一个Java进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。agent里面包含3个核心...

2018-03-21 23:12:00 162

原创 Kafka基础入门

1. Kafka简介Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日...

2018-03-21 23:10:00 100

原创 打造MacOS版“XShell”

1.背景XShell作为一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。作为server端开发,几乎是必备工具了。很多刚切换到MacOS环境下的萌新都会面临一个尴尬的问题:XShell并没有提供MacOS版本,在NetSarang(XShell的爸爸)论坛里群众们也已经向官方呐喊很多年了,却迟迟不见NetSa...

2018-03-12 22:54:00 2630

原创 【Elasticsearch全文搜索引擎实战】之Kibana搭建

1. Kibana介绍Kibana是一个针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana,可以通过各种图表进行高级数据分析及展示。Kibana让海量数据更容易理解。它操作简单,基于浏览器的用户界面可以快速创建仪表板(dashboard)实时显示Elasticsearch查询动态。设置Kibana非...

2018-03-11 21:53:00 395 1

原创 MacOS下SVN迁移Git踩坑记

1. First Blood之前在Windows环境下进行svn到git的迁移是很简单的,参考官方文档。可是在macOS环境下(macOS High Sierra 10.13.2),输入:$ git svn神奇的事情发生了,报了以下错误:can't locate SVN/Core.pm in @INC (you may need to install the SVN::Core...

2018-03-04 22:25:00 226

原创 【Elasticsearch全文搜索引擎实战】之集群搭建及配置

文中Elasticsearch版本为6.0.11. 环境配置把环境配置放在第一节来讲,是因为很多人按官网的Getting Started安装运行会有各种错误。其实都是因为一些配置不正确引起的。首先,Elasticsearch不能以root账号运行,所以我们需要单独建立用户授权运行。对于非root账号Linux可以进行并发操作,但是文件、线程都有限制,所以,部署Elastics...

2018-03-04 21:20:00 92

原创 JVM GC知识回顾

这两天刚好有朋友问到我面试中GC相关问题应该怎么答,作为java面试中热门问题,其实没有什么标准回答。这篇文章结合自己之前的总结,对GC相关知识做一个回顾。1.分代收集当前主流VM垃圾收集都采用”分代收集”(Generational Collection)算法, 这种算法会根据对象存活周期的不同将内存划分为几块, 如JVM中的 新生代、老年代、永久代. 这样就可以根据各年代特点分...

2018-01-21 22:55:00 84

原创 【Elasticsearch全文搜索引擎实战】之Filebeat快速入门

0. 背景用过ELK(Elasticsearch, Logstash, Kibana)的人应该都面临过同样的问题,Logstash虽然功能强大:支持许多的input/output plugin、强大的filter功能。但是确内存占用会非常大。还有种情况(我就是orz...),在Logstash 5.2+版本中,input plugin使用Log4j,必须使用filebeat,并且只支持...

2018-01-21 16:33:00 231

原创 【Elasticsearch全文搜索引擎实战】之Head插件实践

简介Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github也都采用它做的搜索。更多Elasti...

2018-01-11 17:01:00 138

原创 Git命令速查

Alias下面的只是例子,想改成什么跟随自己的意愿即可。git config --global alias.st status //status 缩写成 stgit config --global alias.co checkout //checkout 缩写成 cogit config --global alias.br branch //branch 缩写成 brgit c...

2018-01-11 15:20:00 254

原创 Git快速入门

Git 快速入门0. Git简介git是一个分布式版本控制软件,最初由林纳斯·托瓦兹(Linus Torvalds)创作,于2005年以GPL发布。最初目的是为更好地管理Linux内核开发而设计。Git可以在任何时间点,把文档的状态作为更新记录保存起来。因此可以把编辑过的文档复原到以前的状态,也可以显示编辑前后的内容差异。而且,编辑旧文件后,试图覆盖较新的文件的时候(即上传文件到服务...

2018-01-11 14:40:00 82

原创 Git Workflow简介

1. Git WorkFlow介绍Git Flow是构建在Git之上的一个组织软件开发活动的模型,是在Git之上构建的一项软件开发最佳实践。Git Flow是一套使用Git进行源代码管理时的一套行为规范和简化部分Git操作的工具。2010年5月,在一篇名为“一种成功的Git分支模型”的博文中,@nvie介绍了一种在Git之上的软件开发模型。通过利用Git创建和管理分支的能力,为每个分...

2018-01-07 21:27:00 201

原创 BinderPool — Andorid端的“服务发现治理工具”

导语最近在学习微服务相关知识,突然想到:微服务的思想虽然是在server端的场景下提出来的,但是无论是server,还是移动端,思想是相通的,移动端也会有多服务的场景,就同样面临多服务需要整合治理的问题。1. 背景随着公司业务的发展,项目规模会越来越大,可能会遇到多多服务IPC的场景,有很多模块,而每一个模块都需要和服务端通讯,那么我们也要为每一个模块创建特定的AIDL文件,那...

2018-01-07 14:37:00 149

原创 Spring Cloud Consul入门

1. Consul介绍Consul是一套开源的分布式服务发现和配置管理系统,支持多数据中心分布式高可用。Consul是HashiCorp( Vagrant的创建者)开发的一个服务发现与配置项目,用Go语言开发,基于 Mozilla Public License 2.0 的协议开源。Consul包含多个组件,但是作为一个整体,为你的基础设施提供服务发现和服务配置的工具.他提供以下关键...

2017-12-28 23:57:00 115

Dubbo在考拉中的实践

Dubbo在考拉中的实践,微服务

2019-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除