窝头就辣椒-CSDN博客

原创 kafka使用ssl加密和认证

学习过kafka的人都知道，kafka的默认端口是9092，且消费kafka消息的命令也极其简单。现在随着kafka在消息传输应用中使用的越来越广泛，那么生产环境中消息的保密性也变的重要了，所以生产环境使用ssl来认证kafka是比较必要的。...

2020-04-28 15:05:36 4841 4

原创 kylin源代码的编译，打包（记一次修改bug记录）

注意本文讲述的是在linux（centos）下kylin的编译准备条件：git、maven,node.js 这里不再讲述git与maven的安装kylin的编译中需要node.js的插件及相关命令wget https://nodejs.org/dist/v10.9.0/node-v10.9.0-linux-x64.tar.xz // 下载node.js,版本可自己选择...

2019-09-22 19:21:23 1951

转载一种通用的数据仓库分层方法

0x00 概述数据分层是数据仓库设计中十分重要的一个环节，优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计，或缺少明确而详细的说明，或缺少可落地实施的方案，或缺少具体的示例说明。因此，本文将指出一种通用的数据仓库分层方法，具体包含如下内容：1、介绍数据分层的作用2、提出一种通用的数据分层设计，以及分层设计的原则...

2019-03-15 10:10:27 1016

转载 kafka manager的使用，kafka manager页面参数说明

kafka-manager是kafka集群管理工具，由雅虎开源，用户可以在Web界面执行一些简单的集群管理操作。具体支持以下内容(从githup上kafka-manager项目的readme得到功能列表)： - Manage multiple clusters - Easy inspection of cluster state (topics, consumers, offsets, br...

2019-02-25 12:04:49 21543 4

原创解决hadoop一直存在的瓶颈及扩展性问题，分布式数据存储层HDDS（hadoop新的subproject）

熟悉使用hadoop的同学应该都知道hadoop的一直存在的几个问题： 1、单节点故障 2、namenode的可扩展性 3、小文件的存储第一个问题现在已经比较成熟的解决方案是做主节点的HA,既使用hadoop 2系列版本中的方法，建立两个namenode，一个active状态,另一个是standby状态，两个节点保存的元数据一致，有一个节点服务挂掉之后，另一个节点可...

2019-01-30 15:02:41 3880

转载 HDFS Federation 联邦hdfs的实践与改进

HDFS Federation 为 HDFS 系统提供了 NameNode 横向扩容能力。然而作为一个已实现多年的解决方案，真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发，介绍了 HDFS Federation 在美团点评的实际应用经验。一背景2015 年 10 月，经过一段时间的优化与改进，美团点评 HDFS 集群稳定性和性能有显著提升，保证了业务数...

2019-01-30 13:01:27 844

原创一张图看懂三大开源运维监控框架对比（zabbix、nagios和open-falcon详细比较）

2019-01-29 17:15:37 10846 2

原创算法中常用的几个统计指标，方差，标准差等（简单理解）

定义：1、方差方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中，方差（英文Variance）用来度量随机变量和其数学期望（即均值）之间的偏离程度。在许多实际问题中，研究随机变量和均值之间的偏离程度有着很重要的意义。2、标准差方差开根号。3、协方差在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。可...

2018-12-25 12:15:22 9740

转载 HBase最佳实践－多租户机制简析

本篇文章转自两篇博客，因为hbase中资源的划分有三种方式，两位老师的文章都只写了其中部分。背景介绍在HBase1.1.0发布之前，HBase同一集群上的用户、表都是平等的，没有优劣之分。这种’大同’社会看起来完美，实际上有很多问题。最棘手的主要有这么两个，其一是某些业务较其他业务重要，需要在资源有限的情况下优先保证核心重要业务的正常运行，其二是有些业务在某些场景下会时常’抽风’，QPS...

2018-11-02 17:40:21 1955

转载 Java中Unsafe类详解

java不能直接访问操作系统底层，而是通过本地方法来访问。Unsafe类提供了硬件级别的原子操作，主要提供了以下功能：1、通过Unsafe类可以分配内存，可以释放内存；类中提供的3个本地方法allocateMemory、reallocateMemory、freeMemory分别用于分配内存，扩充内存和释放内存，与C语言中的3个方法对应。2、可以定位对象某字段的内存位置，也可以修改对象的...

2018-10-24 13:12:04 546

原创获得java对象的内存地址

Java不能直接访问操作系统底层，而是通过本地方法来访问。Unsafe类提供了硬件级别的原子操作,在java中内存中的对象地址是可变的，所以获得的内存地址有可能会变化。要获得内存地址也只能通过Unsafe的方法来获得,下面类提供了获取java对象内存地址的方法package com.example.demo.othertest;import java.lang.reflect.Fi...

2018-10-24 12:17:31 9623

转载 TF-IDF与余弦相似性的应用（二）：找出相似文章（转）

作者：阮一峰日期： 2013年3月21日上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。...

2018-08-31 16:17:13 134

转载 TF-IDF与余弦相似性的应用（一）：自动提取关键词(转)

作者：阮一峰日期： 2013年3月15日这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相...

2018-08-31 16:14:56 144

原创 hive创建表格，简单创建及复杂创建（指定分隔符，存储格式、分区等）

1、hive表格简单创建create table test(id int,name string,tel string)然后show tables 就可以查看到已创建的表格了2、指定分隔符存储格式create table test(id int, name string ,tel string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'L...

2018-06-03 17:00:33 17605

转载 hive 参数调优

Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))123set mapreduce.input.fileinputformat.split.maxsize=750000000;单个reduce处理的数据量 (影响reduce的数量) 计算公...

2018-04-15 18:28:44 5664

转载 Java8内存模型—永久代(PermGen)和元空间(Metaspace)

原文链接 http://www.cnblogs.com/paddix/p/5309550.html一、JVM 内存模型　　根据 JVM 规范，JVM 内存共分为虚拟机栈、堆、方法区、程序计数器、本地方法栈五个部分。　　1、虚拟机栈：每个线程有一个私有的栈，随着线程的创建而创建。栈里面存着的是一种叫“栈帧”的东西，每个方法会创建一个栈帧，栈帧中存放了局部变量表（基本数据类型和对象引用）、操作数栈、方...

2018-03-20 22:07:44 165

原创 plsql安装与配置

如果你在工作当中会使用到oracle做数据库，那么一个便于使用sql工具是必不可少的；oracle官方推荐工具是sql developer，但是在工作中发现用着工具的几乎没有，接触过几个负责oracle的dba，他们大都倾向于使用plsql,虽然在开始的时候我不知道这是为什么？但是他们推荐我也就放弃sql developer,改为plsql了，plsql虽然看着界面不是那么美观，但熟练之后还是非常

2017-10-11 22:04:43 1995

原创 java split简单用法，误区

一， java split简单用法 public class SplitTest { public static void main(String[] args) { //一般分割 String a="hello world ni hao"; String[] array1=a.split(" "); System.out.println(ar...

2017-09-12 22:48:23 14782 3

转载 Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数

本文转自 http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-log-aggregation/注意，配置这些参数前，应充分理解这几个参数的含义，以防止误配给集群带来的隐患。另外，这些参数均需要在yarn-site.xml中配置。1. 权限相关配置参数这里的权限由三部分组成，分别是：（1

2017-08-10 12:47:35 249

转载 Hadoop YARN配置参数剖析(1)—RM与NM相关参数

本文转自http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-resourcemanager-nodemanager/注意，配置这些参数前，应充分理解这几个参数的含义，以防止误配给集群带来的隐患。另外，这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数

2017-08-10 12:44:58 285

转载 Python yield 使用浅析

Python yield 使用浅析转自 https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/#icomments ，可以看出原作者是个大牛，此篇文章不光是有yield的介绍，对编程方式上要注重效率和性能也有很大的启发您可能听说过，带有 yield 的函数在 Python

2017-05-24 18:12:28 257

转载简单数据预测—使用Python训练回归模型并进行预测（转自蓝鲸网站分析博客）

使用Python训练回归模型并进行预测2016年9月2日 By蓝鲸1 Comment回归分析是一种常见的统计方法，用于确定不同变量间的相互关系。在Excel中可以通过数据分析菜单中的回归功能快速完成。本篇文章将介绍在python中使用机器学习库sklearn建立简单回归模型的过程。准备工作首先是开始前的准备工作，在创建回归模型的过程中我们需要使用以下几个

2017-03-27 09:28:03 47715 3

转载 java多线程问题

12.4 多线程问题及处理多线程编程为程序开发带来了很多的方便，但是也带来了一些问题，这些问题是在程序开发过程中必须进行处理的问题。这些问题的核心是，如果多个线程同时访问一个资源，例如变量、文件等，时如何保证访问安全的问题。在多线程编程中，这种会被多个线程同时访问的资源叫做临界资源。下面通过一个简单的示例，演示多

2016-03-23 13:45:29 401

原创虚拟机上centos7静态IP的配置

在搭建hadoop的测试集群时，需要预先把集群机器的ip配置为静态配置静态ip有多种方式，这里使用这种本人实验可以成功的，注意centos不同版本的系统可能不一样，本文只适用于centos7系统环境：vm10,centos7；三个虚拟机，由于集群需要，这里centos1（机器名）装机为有界面的，centos2，centos3装机为无界面的；提前说明一点：centos7有界面的系

2015-12-04 10:17:03 2586

转载常用的webservice公共接口

Web Service 一些对外公开的网络服务接口（感谢作者Eric_GuoDongliang）2011-10-29 14:12商业和贸易：1、股票行情数据 WEB 服务（支持香港、深圳、上海基金、债券和股票；支持多股票同时查询）Endpoint: http://webservice.webxml.com.cn/WebServices/StockInfo

2015-03-19 14:25:43 1414

转载 hadoop配置文件core-site.xml、hdfs-site.xml，mapred-site.xml详解

配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default.xml

2015-03-07 13:47:26 8059

转载 tomca6,7的catalina.out文件分割

最近由于工作需要，tomcat 的catalina.out文件的不断扩大，导致系统磁盘空间边变小，而且管理也难于管理，所以想用一种工具来分割它。网上找了找用cronolog安装过程如下：下载（最新版本） # wget http://cronolog.org/download/cronolog-1.6.2.tar.gz2、解压缩 # ta

2014-12-12 17:06:14 490

原创 (总是忘记)的equals方法与“==”简单比较

由于在学java的时候对于具体方法没有深究，对于java也是一知半解，所以在工作的时候写java

2014-09-13 13:52:38 589

机器学习实战彩版高清PDF及全书源码、使用数据集

机器学习实战彩版高清PDF及全书源码、测试使用数据集。自己好不容易搞到的这么清晰的文档，源码是基于python2.7的，也是搜了好久才查找到的,自己也在看这本书，希望能给帮助到大家第1章机器学习基础..................................... 2 1.1 何谓机器学习 ............................................ 3 1.1.1 传感器和海量数据 ......................... 4 1.1.2 机器学习非常重要 ......................... 5 1.2 关键术语 .................................................... 5 1.3 机器学习的主要任务 ................................. 7 1.4 如何选择合适的算法 ................................. 8 1.5 开发机器学习应用程序的步骤 ................. 9 1.6 Python语言的优势.................................. 10 1.6.1 可执行伪代码 ............................... 10 1.6.2 Python比较流行.......................... 10 1.6.3 Python语言的特色....................... 11 1.6.4 Python语言的缺点....................... 11 1.7 NumPy函数库基础................................. 12 1.8 本章小结 .................................................. 13 第2章 k-近邻算法 ....................................... 15 2.1 k-近邻算法概述....................................... 15 2.1.1 准备：使用Python导入数据...... 17 2.1.2实施kNN算法............................. 19 2.1.3 如何测试分类器 ........................... 20 2.2 示例：使用k-近邻算法改进约会网站的配对效果.............................................. 20 2.2.1 准备数据：从文本文件中解析数据.............................................. 21 2.2.2 分析数据：使用Matplotlib创建散点图...................................... 23 2.2.3 准备数据：归一化数值 ............... 25 2.2.4 测试算法：作为完整程序验证分类器.......................................... 26 2.2.5 使用算法：构建完整可用系统.............................................. 27 2.3 示例：手写识别系统 .............................. 28 2.3.1 准备数据：将图像转换为测试向量.......................................... 29 2.3.2 测试算法：使用k-近邻算法识别手写数字.............................. 30 2.4 本章小结 .................................................. 31 第3章决策树 ............................................... 32 3.1 决策树的构造 .......................................... 33 3.1.1信息增益...................................... 35 3.1.2 划分数据集 .................................. 37 3.1.3 递归构建决策树 ........................... 39 3.2在Python中使用Matplotlib注解绘制树形图..................................................... 42 3.2.1 Matplotlib注解............................ 43 3.2.2 构造注解树 .................................. 44 3.3 测试和存储分类器 .................................. 48 3.3.1 测试算法：使用决策树执行分类.............................................. 49 3.3.2 使用算法：决策树的存储 ........... 50 3.4 示例：使用决策树预测隐形眼镜类型 .... 50 3.5 本章小结 .................................................. 52 第4章基于概率论的分类方法：朴素贝叶斯 ............................................... 53 4.1 基于贝叶斯决策理论的分类方法 ........... 53 4.2 条件概率 .................................................. 55 4.3 使用条件概率来分类 .............................. 56 4.4 使用朴素贝叶斯进行文档分类 ............... 57 4.5使用Python进行文本分类..................... 58 第1章机器学习基础..................................... 2 1.1 何谓机器学习 ............................................ 3 1.1.1 传感器和海量数据 ......................... 4 1.1.2 机器学习非常重要 ......................... 5 1.2 关键术语 .................................................... 5 1.3 机器学习的主要任务 ................................. 7 1.4 如何选择合适的算法 ................................. 8 1.5 开发机器学习应用程序的步骤 ................. 9 1.6 Python语言的优势.................................. 10 1.6.1 可执行伪代码 ............................... 10 1.6.2 Python比较流行.......................... 10 1.6.3 Python语言的特色....................... 11 1.6.4 Python语言的缺点....................... 11 1.7 NumPy函数库基础................................. 12 1.8 本章小结 .................................................. 13 第2章 k-近邻算法 ....................................... 15 2.1 k-近邻算法概述....................................... 15 2.1.1 准备：使用Python导入数据...... 17 2.1.2实施kNN算法............................. 19 2.1.3 如何测试分类器 ........................... 20 2.2 示例：使用k-近邻算法改进约会网站的配对效果.............................................. 20 2.2.1 准备数据：从文本文件中解析数据.............................................. 21 2.2.2 分析数据：使用Matplotlib创建散点图...................................... 23 2.2.3 准备数据：归一化数值 ............... 25 2.2.4 测试算法：作为完整程序验证分类器.......................................... 26 2.2.5 使用算法：构建完整可用系统.............................................. 27 2.3 示例：手写识别系统 .............................. 28 2.3.1 准备数据：将图像转换为测试向量.......................................... 29 2.3.2 测试算法：使用k-近邻算法识别手写数字.............................. 30 2.4 本章小结 .................................................. 31 第3章决策树 ............................................... 32 3.1 决策树的构造 .......................................... 33 3.1.1信息增益...................................... 35 3.1.2 划分数据集 .................................. 37 3.1.3 递归构建决策树 ........................... 39 3.2在Python中使用Matplotlib注解绘制树形图..................................................... 42 3.2.1 Matplotlib注解............................ 43 3.2.2 构造注解树 .................................. 44 3.3 测试和存储分类器 .................................. 48 3.3.1 测试算法：使用决策树执行分类.............................................. 49 3.3.2 使用算法：决策树的存储 ........... 50 3.4 示例：使用决策树预测隐形眼镜类型 .... 50 3.5 本章小结 .................................................. 52 第4章基于概率论的分类方法：朴素贝叶斯 ............................................... 53 4.1 基于贝叶斯决策理论的分类方法 ........... 53 4.2 条件概率 .................................................. 55 4.3 使用条件概率来分类 .............................. 56 4.4 使用朴素贝叶斯进行文档分类 ............... 57 4.5使用Python进行文本分类..................... 58

2019-02-21

谷歌发表的关于Goods的论文，高清英文原版

Goods: Organizing Google’s Datasets Alon Halevy 2 , Flip Korn 1 , Natalya F. Noy 1 , Christopher Olston 1 , Neoklis Polyzotis 1 , Sudip Roy 1 , Steven Euijong Whang 1 1 Google Research 2 Recruit Institute of Technology alon@recruit.ai, {flip, noy, olston, npolyzotis, sudipr, swhang}@google.com 1. INTRODUCTION Most large enterprises today witness an explosion in the number of datasets that they generate internally for use in ongoing research and development. The reason behind this explosion is simple: by allowing engineers and data scientists to consume and generate datasets in an unfettered manner, enterprises promote fast development cycles, experimentation, and ultimately innovation that drives their competitive edge. As a result, these internally generated datasets often become a prime asset of the company, on par with source code and internal infrastructure. However, while enterprises have developed a strong culture on how to manage the latter, with source-code development tools and methodologies that we now consider “standard” in the industry (e.g., code versioning and indexing, reviews, or testing), similar approaches do not generally exist for managing datasets. We argue that developing principled and flexible approaches to dataset management has become imperative, lest companies run the risk of internal siloing of datasets, which, in turn, results in significant losses in productivity and opportunities, duplication of work, and mishandling of data

2019-02-21

mfc42d.dll与msvcrtd.dll

这两个dll文件呢，是我在打包c++软件时发现他俩的珍贵的，其实我们在安装软件是也会缺少这两个dll文件的情况，此时，你只需要把这两个文件拷贝到系统的指定位置，然后注册就好了。可是有时候系统明明不缺少这两个文件，就是安装完软件后出现这样的错误，这种情况就是软件的问题了，一般的个人开发软件，特别是c++编译好的软件开发者在调试时debug里面的可执行文件会自动调用vc环境中的这两个dll文件，可是当把软件打包后放到另外一台电脑时，执行文件找不到这两个dll文件，就出现错误了。此时呢，开发者应该把这两个文件放到你的软件源码的文件夹了，然后一起打包，之后完成的不管是安装文件，或可执行文件都不会出错了

2013-10-05

cdh hadoop mapreduce 运行时的问题：（有时候会出现，有时候不出现，急求大神帮助）

2015-10-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人