自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Missing required property “azkaban.native.lib”

Missing required property ‘azkaban.native.lib’ 17-06-2020 16:06:43 PDT jobB INFO - Starting job jobB at 1592435203853 17-06-2020 16:06:43 PDT jobB IN...

2020-06-17 23:30:47 47 0

原创 win10编译hadoop3.2.1

概述 搞大数据,hadoop是核心组件,因为开源,并且体现庞杂,难免遇到一些坑,在遇到问题的时候很多情况下就需要来翻源码,如果有bug还得改改bug然后重新编译。所以在windows上编译hadoop还是需要弄一下的。hadoop不像一般的那些java小项目,maven编译命令一跑,就把源码给你编...

2020-05-28 23:37:50 143 0

原创 Redis Cluster架构

概述 Redis作为常用的K-V内存数据库经常被用在大型互联网项目中,作为缓存使用,由于大型互联网项目一般数据量大并且必须保证服务高可用,使用redis一般都是以集群形式来使用,这样带来2点好处: 自动把数据分布到不同节点,容易横向扩容。 保证Redis集群中个别节点不可用时Redis服务是可用...

2020-05-01 16:52:47 92 0

原创 vscode调试django项目

这几天研究HUE,这个东西是基于Django开发的,于是又看了一眼Django,学着写个demo。微软开源的vscode在业界反应不错,以前也没用过,借着这次机会用用vscode,和pycharm比起来各有千秋,不过总体来说还是不错的。新工具各种不熟悉,连怎么调试都得研究研究,现在记录一下vsco...

2020-03-09 22:09:29 1306 0

原创 CodeMirror.MergeView

最近项目上需要实现2个文本的比较展示功能,找了一圈发现CodeMirror.MergeView 自带这个功能,其实里面用的diff插件是Google的diff-match-patch,在github的星星还蛮多,就用选择这个插件了。 下面写个demo以便备忘。 安装依赖 npm install c...

2020-02-02 21:14:39 463 0

原创 hadoop 文件上传

hdsf 本质上就是一个分布式文件系统,只是相对于普通计算机来说,它可以很容易横向扩展,自带高可用机制。 我们要在Hadoop做MapReduce计算的时候,就需要把写好的程序打成jar包放到hdfs上。hadoop提供多种方式方式让你能够把文件放入hdfs,比如 自带的shell命令行客户端pu...

2020-02-01 21:54:22 162 0

翻译 YARN资源调度策略之Fair Scheduler

目的 这篇文章是对公平调度器(FairScheduler)的说明,它是hadoop的一个可插拔的调度器,目的是让应用程序在YARN上能够公平的共享巨大的集群资源。 介绍 公平调度是一种将资源分配给应用程序的方法,这样所有应用程序平均都能在一段时间内获得相同的资源份额。Hadoop NextGen能...

2020-01-30 14:33:13 320 0

原创 hive自定义函数(UDF)

概述 用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特...

2020-01-29 21:41:32 179 0

转载 Fair Scheduler与Capacity Scheduler比较

1、Fair Scheduler Facebook开发的适合共享环境的调度器,支持多用户多分组管理,每个分组可以配置资源量,也可限制每个用户和每个分组中的并发运行作业数量;每个用户的作业有优先级,优先级越高分配的资源越多。 2、Capacity Scheduler Yahoo开发的适合共享环境的调...

2020-01-28 15:01:08 224 0

转载 YARN资源调度策略之Capacity Scheduler

什么是capacity scheduler Capacity Scheduler调度器以队列为单位划分资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的,如下图: default队列占30%资源,analyst和dev分别占40%和30%资源;类似的,analys...

2020-01-28 13:28:58 121 0

转载 Yarn资源调度系统详解

1、Yarn介绍 Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 ...

2020-01-27 15:40:27 271 0

原创 presto测试安装

安装 安装参考官方文档:https://prestodb.github.io/docs/current/installation/deployment.html 环境要求 JDK:>=8u151 如果服务器里面的jdk版本低于目前presto需求,需要在launcher单独配置需要的jdk ...

2019-10-13 22:22:08 175 0

原创 在CentOS上重新编译nginx,加sticky模块

为了达到高可用目的,一个应用一般会部署多个实例,前面用nginx做负载。有些时候我们希望一个用户的所有请求都打到其中一个实例上(比如会话或者状态不能在服务集群所有实例间进行共享时),nginx官方默认的解决方案是通过ip_hash实现,但是ip hash 不够准确,ip hash其实就是把客户端i...

2019-10-04 17:52:01 270 0

原创 mysql5.7忘记root密码处理(win10环境)

环境 操作系统:win10 MySQL版本:mysql-5.7.17-winx64 操作步骤 1. 停止mysql服务 net stop mysql 2. 关闭身份认证 以管理员身份启动一个DOS窗口,进入mysql的bin目录,执行如下命令。 ./mysqld --skip-grant-t...

2019-08-22 23:01:18 298 0

翻译 Flink数据流编程模型

抽象层次 Flink 提供了不同层次的抽象给批/流编程模型使用。 [外链图片转存失败(img-dO9iJvNu-1566143383239)(https://github.com/clj198606061111/image/blob/master/flink/levels_of_abstracti...

2019-08-18 23:50:32 55 0

原创 Flink安装部署-window 本地部署

flink 可以运行在 Linux, Mac OS X, and Windows 操作系统上面。要运行Flink得先安装JDK 8.X。 JDK安装参看:http://www.itclj.com/blog/5920236681c06e672f942ad4 下载 官网下载地址:https://fli...

2019-08-17 15:56:06 3685 0

转载 Flink应用场景

Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。在...

2019-08-17 14:11:07 1081 0

转载 Linux Netcat 命令——网络工具中的瑞士军刀

netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向,你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。 netcat所做的就是在两台电脑之间建立链接并返回两个数据流,在这之后所能做的事就看你的想像力了。你能建立一个服务器...

2019-08-04 22:17:44 66 0

原创 vue g6 hello world

在下当前所在项目需要弄一个流程图,前端框架用的vue,所以研究一下g6在vue下的使用。 g6介绍 G6 是蚂蚁金服旗下一个开源图可视化框架。它提供了一套图可视化的基础设置,能帮助开发者搭建属于自己的图 图分析 应用或是 图编辑器 应用。 个人感觉这个图可视化框架比 GoJS更优秀更好用些。 项目...

2019-06-04 07:56:21 2563 1

原创 [anaconda]jupyter notebook 安装配置

背景 现在在公司大数据平台部从事大数据基础组件开发工作,所需要涉及的知识面非常广,其中人工智能也是后续大数据基础平台建设的重要部分,于是就花了几千块报了个人工智能的课程。这个课程有一些前置基础课程,python就是其基础课程的一门。开始学习python,教学环境用的anaconda里面的jupy...

2019-03-26 17:42:16 3110 0

转载 数据治理之元数据管理实践

引言 数字转型对不同的人意味着不同的东西,这取决于你的行业和你的业务性质。然而,所有的解释都有一个共同的主线,数据和数据治理的重要性。近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企...

2019-03-02 16:04:44 7044 0

转载 数据质量监控工具-Apache Griffin

一、概述 随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job...

2019-02-02 07:45:13 4180 0

原创 PyCharm 配置 Apache HUE 开发环境

Apache HUE 是一个操作hadoop生态各组件及组件管理的数据的集大成工具,其底层的 web 框架是python Django。现分享下如何基于 Pycharm 来搭建 Apache HUE 的开发环境。 需要注意的是,目前HUE只支持Linux环境安装编译,需要在Windows调试只能...

2018-12-24 21:56:17 797 0

原创 HUE4.3安装配置

HUE简介 Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,用Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进...

2018-12-23 00:08:33 3255 0

原创 Thrift方式连接hiveServer2+Kerberos

最近在做一个大数据查询平台,后端引擎有部分用了hive,通过thrift的方式连接hiveServer2,由于集群加了kerberos,所以实现thrift连接hiveServer2的时候需要加上kerberos认证。网上查了很多文章,写的thrift连接hive都没有kerberos,分享一下,...

2018-12-09 15:40:26 1722 1

原创 Redis 5 集群搭建

实验环境 在VMware中准备3个虚拟机,每个虚拟机部署2个redis,一主一从,实现一个总的3主3从的redis集群,主节点端口设置为7001,从节点设置为7002。 redis服务使用单独的redis用户和用户组启动。所有文件都在/home/redis目录下。 OS: CentOS-7-x8...

2018-11-14 23:26:08 639 0

转载 javascript 三种变量申明方式var、let、const

javascript 三种变量申明方式var、let、const var 申明了一个要么是全局,要么是函数级的变量;这种是我们最常见也是最常用的。 描述: 变量声明无论出现在代码的任何位置,都会在任何代码执行之前处理。 给一个非声明变量赋值会隐式创建一个全局变量(全局object的一个属性)。 ...

2018-10-14 16:08:08 384 0

原创 spring-boot整合shiro

概述 权限体系在现代任何IT系统中都是很基础但又非常重要的部分,无论是传统MIS系统还是互联网系统,出于保护业务数据和应用自身的安全,都会设计自己的授权鉴权策略。 最近项目中也需要用到权限验证功能,项目为spring-boot工程,现成的权限验证框架有shiro和spring-security,s...

2018-10-06 02:30:27 18195 6

原创 Orientdb基本操作

建模 1、 模型定义-销售数据库(saledb) 顶点继承自属性 人(Person)   姓名(name) 性别(sex) 出生日期(birthday) 员工(E...

2018-09-02 12:32:43 6966 2

翻译 【JanusGraph】第十一章:使用索引提升性能

11. 使用索引提升性能 Chapter 11. Indexing for Better Performance JanusGraph支持2种类型的索引用以提升查询处理速度,分别是图索引(graph indexes)和中心节点索引(vertex-centric indexes)。大多数...

2018-09-02 11:09:12 3192 0

翻译 【JanusGraph】第八章:系统部署方案

第八章:系统部署型态 Chapter 8. Deployment Scenarios JanusGraph提供多种后端存储和后端索引,使其能够更灵活的部署。本章介绍了几种可能的部署场景,以帮助解决这种灵活性带来的复杂性。 在讨论部署场景之前,理解JanusGraph本身的角色定位和后...

2018-08-24 00:19:55 3464 0

翻译 【JanusGraph】第七章:JanusGraph服务

第七章:JanusGraph服务 Chapter 7. JanusGraph Server JanusGraph使用Gremlin Server作为服务组件对客户端请求进行请求处理响应。当JanusGraph打包的时候,Gremlin Server就被称为JanusGraph服务。 ...

2018-08-21 22:51:25 3203 0

翻译 【JanusGraph】第五章:数据库建模

第五章:数据模型 Chapter 5. Schema and Data Modeling 每个JanusGraph图都是由边标签(edge label)、属性key、顶点标签(vertex label)构成。JanusGraph图模型(schema)可以显示定义也可以隐示定义。在实际应...

2018-08-18 00:03:49 1051 0

原创 Neo4j安装

实验环境 实验环境:Win10下vmware虚拟机 操作系统:CentOS-7-x86_64-Minimal-1804 JDK:jdk-8u131-linux-x64 安装 neo4j安装非常简单,安装好jdk后,把neo4j程序包解压出来修改一个配置,启动即可。 安装JDK...

2018-08-15 23:54:21 2184 0

翻译 Graph Variables

Graph Variables TinkerPop3引入了Graph.Variables的概念。变量(Variables)是用于图自身管理的键值对,本质上就是一个Map<String,Object>对象。这些变量计划用于存储图的元数据信息,例如下面这些使用场景: ...

2018-08-07 23:32:03 192 0

原创 JanusGraph使用报错整理-JMX

实验环境 CentOS7 janusgraph-0.2.1-hadoop2 报错 gremlin> graph = JanusGraphFactory.open('conf/janusgraph-cassandra-embedded-es.properties...

2018-07-25 23:25:15 2062 0

原创 ElasticSearch安装报错整理-memory[262144]

实验环境 CentOS7 elasticsearch-6.2.4 具体错误 [1]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

2018-07-20 23:43:57 341 0

原创 ElasticSearch安装报错整理-threads[4096]

ERROR: [2] bootstrap checks failed [1]: max number of threads [3802] for user [elasticsearch] is too low, increase to at least [4096] [2]: max virtua...

2018-07-20 23:00:17 1930 0

原创 Spark集群安装

背景介绍 最近调到大数据部门,Spark属于大数据非常重要的基础组件,研究研究也是非常必要的,现实验安装一下,以便对其部署运行机制有个深刻的认识。 实验环境 实验环境:Win7下vmware虚拟机 操作系统:CentOS 6.5 x64 JDK:jdk-8u161-linux-x64 ...

2018-03-06 21:52:26 697 0

原创 Hadoop集群安装

背景介绍 最近研究大数据,hadoop属于大数据中很基础的组件,如果需要深入了解,还是得先知道怎么安装部署,方便后续查阅。本操作步骤详细记录hadoop分布式集群环境的搭建过程。 实验环境 实验环境:Win7下vmware虚拟机 操作系统:CentOS 6.5 x64 JDK:jdk-...

2018-03-05 22:04:13 360 0

提示
确定要删除当前文章?
取消 删除