- 博客(28)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 kafka使用ssl加密和认证
学习过kafka的人都知道,kafka的默认端口是9092,且消费kafka消息的命令也极其简单。现在随着kafka在消息传输应用中使用的越来越广泛,那么生产环境中消息的保密性也变的重要了,所以生产环境使用ssl来认证kafka是比较必要的。...
2020-04-28 15:05:36 4841 4
原创 kylin源代码的编译,打包(记一次修改bug记录)
注意本文讲述的是在linux(centos)下kylin的编译准备条件:git、maven,node.js 这里不再讲述git与maven的安装kylin的编译中需要node.js的插件及相关命令wget https://nodejs.org/dist/v10.9.0/node-v10.9.0-linux-x64.tar.xz // 下载node.js,版本可自己选择...
2019-09-22 19:21:23 1951
转载 一种通用的数据仓库分层方法
0x00 概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。因此,本文将指出一种通用的数据仓库分层方法,具体包含如下内容:1、介绍数据分层的作用2、提出一种通用的数据分层设计,以及分层设计的原则...
2019-03-15 10:10:27 1016
转载 kafka manager的使用,kafka manager页面参数说明
kafka-manager是kafka集群管理工具,由雅虎开源,用户可以在Web界面执行一些简单的集群管理操作。具体支持以下内容(从githup上kafka-manager项目的readme得到功能列表): - Manage multiple clusters - Easy inspection of cluster state (topics, consumers, offsets, br...
2019-02-25 12:04:49 21543 4
原创 解决hadoop一直存在的瓶颈及扩展性问题,分布式数据存储层HDDS(hadoop新的subproject)
熟悉使用hadoop的同学应该都知道hadoop的一直存在的几个问题: 1、单节点故障 2、namenode的可扩展性 3、小文件的存储 第一个问题现在已经比较成熟的解决方案是做主节点的HA,既使用hadoop 2系列版本中的方法,建立两个namenode,一个active状态,另一个是standby状态,两个节点保存的元数据一致,有一个节点服务挂掉之后,另一个节点可...
2019-01-30 15:02:41 3880
转载 HDFS Federation 联邦hdfs的实践与改进
HDFS Federation 为 HDFS 系统提供了 NameNode 横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了 HDFS Federation 在美团点评的实际应用经验。一 背景2015 年 10 月,经过一段时间的优化与改进,美团点评 HDFS 集群稳定性和性能有显著提升,保证了业务数...
2019-01-30 13:01:27 844
原创 算法中常用的几个统计指标,方差,标准差等(简单理解)
定义:1、方差方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。2、标准差方差开根号。3、协方差在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。可...
2018-12-25 12:15:22 9740
转载 HBase最佳实践-多租户机制简析
本篇文章转自两篇博客,因为hbase中资源的划分有三种方式,两位老师的文章都只写了其中部分。背景介绍在HBase1.1.0发布之前,HBase同一集群上的用户、表都是平等的,没有优劣之分。这种’大同’社会看起来完美,实际上有很多问题。最棘手的主要有这么两个,其一是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行,其二是有些业务在某些场景下会时常’抽风’,QPS...
2018-11-02 17:40:21 1955
转载 Java中Unsafe类详解
java不能直接访问操作系统底层,而是通过本地方法来访问。Unsafe类提供了硬件级别的原子操作,主要提供了以下功能:1、通过Unsafe类可以分配内存,可以释放内存;类中提供的3个本地方法allocateMemory、reallocateMemory、freeMemory分别用于分配内存,扩充内存和释放内存,与C语言中的3个方法对应。2、可以定位对象某字段的内存位置,也可以修改对象的...
2018-10-24 13:12:04 546
原创 获得java对象的内存地址
Java不能直接访问操作系统底层,而是通过本地方法来访问。Unsafe类提供了硬件级别的原子操作,在java中内存中的对象地址是可变的,所以获得的内存地址有可能会变化。要获得内存地址也只能通过Unsafe的方法来获得,下面类提供了获取java对象内存地址的方法package com.example.demo.othertest;import java.lang.reflect.Fi...
2018-10-24 12:17:31 9623
转载 TF-IDF与余弦相似性的应用(二):找出相似文章(转)
作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。...
2018-08-31 16:17:13 134
转载 TF-IDF与余弦相似性的应用(一):自动提取关键词(转)
作者: 阮一峰日期: 2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相...
2018-08-31 16:14:56 144
原创 hive创建表格,简单创建及复杂创建(指定分隔符,存储格式、分区等)
1、hive表格简单创建create table test(id int,name string,tel string)然后show tables 就可以查看到已创建的表格了2、指定分隔符存储格式create table test(id int, name string ,tel string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'L...
2018-06-03 17:00:33 17605
转载 hive 参数调优
Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))123set mapreduce.input.fileinputformat.split.maxsize=750000000;单个reduce处理的数据量 (影响reduce的数量) 计算公...
2018-04-15 18:28:44 5664
转载 Java8内存模型—永久代(PermGen)和元空间(Metaspace)
原文链接 http://www.cnblogs.com/paddix/p/5309550.html一、JVM 内存模型 根据 JVM 规范,JVM 内存共分为虚拟机栈、堆、方法区、程序计数器、本地方法栈五个部分。 1、虚拟机栈:每个线程有一个私有的栈,随着线程的创建而创建。栈里面存着的是一种叫“栈帧”的东西,每个方法会创建一个栈帧,栈帧中存放了局部变量表(基本数据类型和对象引用)、操作数栈、方...
2018-03-20 22:07:44 165
原创 plsql安装与配置
如果你在工作当中会使用到oracle做数据库,那么一个便于使用sql工具是必不可少的;oracle官方推荐工具是sql developer,但是在工作中发现用着工具的几乎没有,接触过几个负责oracle的dba,他们大都倾向于使用plsql,虽然在开始的时候我不知道这是为什么?但是他们推荐我也就放弃sql developer,改为plsql了,plsql虽然看着界面不是那么美观,但熟练之后还是非常
2017-10-11 22:04:43 1995
原创 java split简单用法,误区
一 , java split简单用法 public class SplitTest { public static void main(String[] args) { //一般分割 String a="hello world ni hao"; String[] array1=a.split(" "); System.out.println(ar...
2017-09-12 22:48:23 14782 3
转载 Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数
本文转自 http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-log-aggregation/注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. 权限相关配置参数这里的权限由三部分组成,分别是:(1
2017-08-10 12:47:35 249
转载 Hadoop YARN配置参数剖析(1)—RM与NM相关参数
本文转自http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-resourcemanager-nodemanager/注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数
2017-08-10 12:44:58 285
转载 Python yield 使用浅析
Python yield 使用浅析转自 https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/#icomments ,可以看出原作者是个大牛,此篇文章不光是有yield的介绍,对编程方式上要注重效率和性能也有很大的启发您可能听说过,带有 yield 的函数在 Python
2017-05-24 18:12:28 257
转载 简单数据预测—使用Python训练回归模型并进行预测(转自蓝鲸网站分析博客)
使用Python训练回归模型并进行预测2016年9月2日 By蓝鲸1 Comment回归分析是一种常见的统计方法,用于确定不同变量间的相互关系。在Excel中可以通过数据分析菜单中的回归功能快速完成。本篇文章将介绍在python中使用机器学习库sklearn建立简单回归模型的过程。准备工作首先是开始前的准备工作,在创建回归模型的过程中我们需要使用以下几个
2017-03-27 09:28:03 47715 3
转载 java多线程问题
12.4 多线程问题及处理 多线程编程为程序开发带来了很多的方便,但是也带来了一些问题,这些问题是在程序开发过程中必须进行处理的问题。 这些问题的核心是,如果多个线程同时访问一个资源,例如变量、文件等,时如何保证访问安全的问题。在多线程编程中,这种会被多个线程同时访问的资源叫做临界资源。 下面通过一个简单的示例,演示多
2016-03-23 13:45:29 401
原创 虚拟机上centos7静态IP的配置
在搭建hadoop的测试集群时,需要预先把集群机器的ip配置为静态配置静态ip有多种方式,这里使用这种本人实验可以成功的,注意centos不同版本的系统可能不一样,本文只适用于centos7系统环境:vm10,centos7;三个虚拟机,由于集群需要,这里centos1(机器名)装机为有界面的,centos2,centos3装机为无界面的;提前说明一点:centos7有界面的系
2015-12-04 10:17:03 2586
转载 常用的webservice公共接口
Web Service 一些对外公开的网络服务接口(感谢作者Eric_GuoDongliang)2011-10-29 14:12商业和贸易:1、股票行情数据 WEB 服务(支持香港、深圳、上海基金、债券和股票;支持多股票同时查询)Endpoint: http://webservice.webxml.com.cn/WebServices/StockInfo
2015-03-19 14:25:43 1414
转载 hadoop配置文件core-site.xml、hdfs-site.xml,mapred-site.xml详解
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml
2015-03-07 13:47:26 8059
转载 tomca6,7的catalina.out文件分割
最近由于工作需要,tomcat 的catalina.out文件的不断扩大,导致系统磁盘空间边变小,而且管理也难于管理,所以想用一种工具来分割它。网上找了找用cronolog安装过程如下:下载(最新版本) # wget http://cronolog.org/download/cronolog-1.6.2.tar.gz2、解压缩 # ta
2014-12-12 17:06:14 490
原创 (总是忘记)的equals方法与“==”简单比较
由于在学java的时候对于具体方法没有深究,对于java也是一知半解,所以在工作的时候写java
2014-09-13 13:52:38 589
机器学习实战彩版高清PDF及全书源码、使用数据集
2019-02-21
谷歌发表的关于Goods的论文,高清英文原版
2019-02-21
mfc42d.dll与msvcrtd.dll
2013-10-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人