Apache Storm之集群安装

1. 环境 storm 1.2.1 Java 7+ (storm 1.x对java 7 和 java 8均进行了测试) Pytho 2.6.6 (Python 3.x理论上也可以,但是并不作为storm的测试) 以上是storm的环境, 如果不匹配的java和python, 有可能会出错....

2018-05-31 18:37:57

阅读数 271

评论数 0

Kafka之基础笔记

1. kafka offset 存储 1.1 去zookeeper依赖 比较广为人知的Kafka offset存储方式为zookeeper,在0.8版本时,默认依然是zk,但是此时其实已经出现另外一种offset存储方式了,Kafka以“consumer group + topic + p...

2018-03-31 19:15:38

阅读数 102

评论数 0

机器学习之k-means算法

1. K-mean聚类算法 在聚类问题中,假设训练数据 {x(1),x(2),...,x(m),}x(i)∈Rn{x(1),x(2),...,x(m),}x(i)∈Rn \{x^{(1)}, x^{(2)},...,x^{(m)},\} x^{(i)} \in \mathbb{R}^n 我...

2018-03-30 20:08:20

阅读数 354

评论数 0

Hadoop之CDH安装

1. 离线数据存储及查询环境部署 离线数据的存储与查询主要是以hadoop为中心的技术栈,包括hive,hbase,hue,kylin等。部署hadoop的方式比较流行的主要有三种: 1. 直接部署Apache Hadoop,即手工部署,需要自己配置,协调版本兼容等,好处是能够加深理解,但是过...

2018-03-30 12:14:51

阅读数 8827

评论数 0

HBase调优之GC超时

1. HBase GC时间过长 1.1 问题描述 ... 2018-03-01 17:32:16,243 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host machine (...

2018-03-29 17:21:24

阅读数 1210

评论数 0

机器学习之LDA降维

1. PCA缺点 在上篇介绍PCA的文章中有一句话是: PCA是一种能够极大提升无监督特征学习速度的数据降维算法 这里很明显的说明,PCA适用于非监督学习的数据降维,显而易见,在进行数据降维的时候,我们并没有考虑数据的类别信息,仅仅是针对数据的特征来进行学习.当已知数据的类别时,在某...

2018-03-25 09:51:57

阅读数 709

评论数 0

Maven之dependencyManagement

1. 父项目的dependencyManagement 最开始,知道dependencyManagement是管理jar包版本的,如果在父项目中的该节点下声明了包的版本,子项目中在Dependencies中引用该包时就不需要声明版本了,这样保证多个子项目能够使用相同的包版本。 dependen...

2018-03-15 14:53:15

阅读数 216

评论数 0

Java原理之垃圾回收机制

1. Java GC - 垃圾回收机制 任何一种GC算法都会发生”stop-the-world”. JVM会因为要执行GC而停止应用的执行,当”stop-the-world”发生时,除了GC所需线程以外,所有线程都处于等待状态,直到GC任务完成.GC优化很多时候就是减少”stop-the-wor...

2018-03-02 21:14:22

阅读数 142

评论数 0

机器学习之logistic回归

1. 指数分布族 1.1 定义 指数族分布(exponential family of distributions)亦称指数型分布族,在上世纪30年代中期被提出,在概率学和统计学中,它是一些有着特殊形式的概率分布的集合,是统计中最重要的参数分布族,包含了二项分布、正态分布,指数分布、伯努利...

2018-02-13 17:37:06

阅读数 142

评论数 0

机器学习之PCA降维

1. 前言 机器学习中,样本的数量和维度是一个很重要的度量,同时影响着最终模型的准确性以及训练模型所消耗的资源。过多的维度,将会造成维度灾难,同时增加训练模型的时间。 维度灾难简而言之,在样本数一定的情况下,随着维度的增加,样本的总空间增大,相同数量样本所占总样本空间的比值在降低,即,在高纬度...

2018-02-02 21:40:58

阅读数 234

评论数 0

Kylin Failed to load Hive Table: Overwriting conflict

1. 问题 使用kylin加载hive的表时出错,报错如下: 2018-01-25 15:55:47,581 TRACE [http-bio-7070-exec-5] hbase.HBaseResourceStore:311 : Update row /table_exd/NLOGS.BR...

2018-01-25 17:24:15

阅读数 1302

评论数 0

Python连接Hive

1. Hiveserver1 & HiveServer2 1.1 HiveServer1   HiveServer是一个可选的服务,能够允许远程客户端使用各种编程语言向hive提交请求并检索结果。Hiveserver是建立在Apache Thrift上的,所以有时候称呼其为Thri...

2018-01-17 14:48:40

阅读数 14678

评论数 0

Structured Streaming整合kafka

Structured Streaming整合kafkaSpark2.0以后开始推出Structured Streaming,详情参考上文Spark2.0 Structured Streaming。本文介绍一种常用的方式: Structured Streaming读取kafka数据,并使用spark...

2018-01-11 18:40:25

阅读数 6260

评论数 3

YARN资源管理的最佳实践

YARN资源管理的最佳实践 在这篇博文中,我将讨论YARN资源管理的最佳实践。MRV2(YARN)的基本思想是将资源管理和作业调度/监控两大功能分为独立的守护进程。这个想法是拥有一个全局ResourceManager(RM)和每个应用程序的ApplicationMaster(AM)。应用程序...

2017-08-17 16:33:54

阅读数 2566

评论数 1

Apache Kylin权威指南 1.5版本 笔记

1.概述 (p21-32) : (1) 数据表或者数据模型上所有字段只有两种分类: 维度或者度量, 度量可以被聚合 . 是数据分析中的两个基本概念. 维度指审视数据的角度, 通常是数据记录的一个属性,例如时间,地点等. 度量是基于数据所计算出来的考量值,通常是一个数值, 如...

2017-08-09 19:38:08

阅读数 950

评论数 0

Spark函数传递:闭包和单例模式

闭包例子 在Spark的集群模式中,每一个Spark应用由负责运行用户的main函数的driver program和并行运行在集群中的工作进程组成。主要的抽象数据结构是RDD,可以在集群中并行的被操作,其主要提供了两个操作:transformations以及actions。这些都是Spark的基本...

2016-11-24 19:55:41

阅读数 2363

评论数 0

Idea上传已有项目到git

开发经常遇到的问题是开发初期没有建立GIT仓库,开发一段时间后,需要将已有代码上传到Git, 怎么将已有项目与新建的Git仓库相关联呢?借助Idea可以轻松实现:    1:首先使用Git命令行 git clone XXXXX.git 将项目下载    2:设置文件夹显示隐藏文件夹    3:拷贝...

2016-11-18 14:40:45

阅读数 3561

评论数 0

Spark2.0 Structured Streaming

Spark2.0新特性,DataFrame和DataSet进行了整合,极大的优化了SparkSQL引擎的运行速度,在此基础上,将Spark Streaming和Spark SQL进行了整合,增加了新的特性Structured Streaming,能够使用标准的SQL语句处理实时的数据流

2016-08-07 23:04:45

阅读数 10084

评论数 10

c++应用Ado访问数据库小实例(Win32控制台应用)

在网上搜索好久,发现都是MFCyin

2014-07-26 16:47:04

阅读数 679

评论数 0

C++ 应用Ado,Win32Ado.exe已停止工作

创建数据库连接,在程序结束时shif 然后就代码页就跳到里的这个函数。   void _Release() throw()   {   if (m_pInterface != NULL) {   m_pInterface->Release();   }   }

2014-07-26 16:39:28

阅读数 650

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭