董云龙-CSDN博客

原创 Apache Storm之集群安装

1. 环境storm 1.2.1Java 7+ (storm 1.x对java 7 和 java 8均进行了测试)Pytho 2.6.6 (Python 3.x理论上也可以,但是并不作为storm的测试)以上是storm的环境, 如果不匹配的java和python, 有可能会出错.2. storm集群安装步骤设置Zookeeper集群设置Nimbus和worker节...

2018-05-31 18:37:57 906

原创 Kafka之基础笔记

1. kafka offset 存储1.1 去zookeeper依赖比较广为人知的Kafka offset存储方式为zookeeper，在0.8版本时，默认依然是zk，但是此时其实已经出现另外一种offset存储方式了，Kafka以“consumer group + topic + partition”为组合key，记录一份消费信息，存储在默认的”__consumer_offset”的...

2018-03-31 19:15:38 971

原创机器学习之k-means算法

1. K-mean聚类算法在聚类问题中,假设训练数据 {x(1),x(2),...,x(m),}x(i)∈Rn{x(1),x(2),...,x(m),}x(i)∈Rn\{x^{(1)}, x^{(2)},...,x^{(m)},\}x^{(i)} \in \mathbb{R}^n 我们想要将其分成几组聚合的”cluster”,但是没有标签y, 所以这是一个非监督的学习算法. K-m...

2018-03-30 20:08:20 1350

原创 Hadoop之CDH安装

1. 离线数据存储及查询环境部署离线数据的存储与查询主要是以hadoop为中心的技术栈，包括hive，hbase，hue，kylin等。部署hadoop的方式比较流行的主要有三种： 1. 直接部署Apache Hadoop，即手工部署，需要自己配置，协调版本兼容等，好处是能够加深理解，但是过程较繁琐。 2. Ambari ：Hortonworks的产品，用于创建，管理，监视hadoop集群...

2018-03-30 12:14:51 23006 1

原创 HBase调优之GC超时

1. HBase GC时间过长1.1 问题描述...2018-03-01 17:32:16,243 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 16100msGC pool 'Par...

2018-03-29 17:21:24 5220

原创机器学习之LDA降维

1. PCA缺点在上篇介绍PCA的文章中有一句话是: PCA是一种能够极大提升无监督特征学习速度的数据降维算法这里很明显的说明,PCA适用于非监督学习的数据降维,显而易见,在进行数据降维的时候,我们并没有考虑数据的类别信息,仅仅是针对数据的特征来进行学习.当已知数据的类别时,在某些情况下,PCA的效果将会非常差.例如: 如上图所示,如果使用PCA进行降维,将会映射到Y轴上(...

2018-03-25 09:51:57 2675

1. 父项目的dependencyManagement最开始，知道dependencyManagement是管理jar包版本的，如果在父项目中的该节点下声明了包的版本，子项目中在Dependencies中引用该包时就不需要声明版本了，这样保证多个子项目能够使用相同的包版本。 dependencyManagement不实际下载jar包，只会声明包的版本。如果Dependencies中声明了包的...

2018-03-15 14:53:15 2013 1

原创 Java原理之垃圾回收机制

1. Java GC - 垃圾回收机制任何一种GC算法都会发生”stop-the-world”. JVM会因为要执行GC而停止应用的执行,当”stop-the-world”发生时,除了GC所需线程以外,所有线程都处于等待状态,直到GC任务完成.GC优化很多时候就是减少”stop-the-world”发生的时间.1.1 JVM内存模型根据JVM规范,JVM内存共分为虚拟机栈,堆,方法区,...

2018-03-02 21:14:22 693

原创机器学习之logistic回归

1. 指数分布族1.1 定义指数族分布(exponential family of distributions)亦称指数型分布族，在上世纪30年代中期被提出,在概率学和统计学中,它是一些有着特殊形式的概率分布的集合,是统计中最重要的参数分布族，包含了二项分布、正态分布,指数分布、伯努利分布、泊松分布、gamma分布、beta分布等.指数分布族为很多重要而且常用的概率分布提供了统一的框架...

2018-02-13 17:37:06 493

原创机器学习之PCA降维

1. 前言机器学习中，样本的数量和维度是一个很重要的度量，同时影响着最终模型的准确性以及训练模型所消耗的资源。过多的维度，将会造成维度灾难，同时增加训练模型的时间。维度灾难简而言之，在样本数一定的情况下，随着维度的增加，样本的总空间增大，相同数量样本所占总样本空间的比值在降低，即，在高纬度下，样本的分布变得稀疏，为了避免出现过拟合，则需要增加样本的数量或者降低数据的维度。主成分分析（P...

2018-02-02 21:40:58 1141

原创 Kylin Failed to load Hive Table: Overwriting conflict

1. 问题使用kylin加载hive的表时出错，报错如下：2018-01-25 15:55:47,581 TRACE [http-bio-7070-exec-5] hbase.HBaseResourceStore:311 : Update row /table_exd/NLOGS.BRO_DHCP.json from oldTs: 0, to newTs: 1516866947530,

2018-01-25 17:24:15 3255

原创 Python连接Hive

1. Hiveserver1 & HiveServer21.1 HiveServer1 HiveServer是一个可选的服务，能够允许远程客户端使用各种编程语言向hive提交请求并检索结果。Hiveserver是建立在Apache Thrift上的,所以有时候称呼其为Thrift Server，尽管因为HiverServer2也是建立在Thrift之上，从而容易产生疑惑。HiveSe

2018-01-17 14:48:40 22414

原创 Structured Streaming整合kafka

Structured Streaming整合kafkaSpark2.0以后开始推出Structured Streaming，详情参考上文Spark2.0 Structured Streaming。本文介绍一种常用的方式: Structured Streaming读取kafka数据，并使用spark sql过滤，最终输出到终端。本示例能够读取多个topic数据，并分别映射为Spark内存表，执行多个...

2018-01-11 18:40:25 14825 3

原创 Apache Kylin权威指南 1.5版本笔记

1.概述 (p21-32) :(1) 数据表或者数据模型上所有字段只有两种分类: 维度或者度量, 度量可以被聚合 .是数据分析中的两个基本概念.维度指审视数据的角度, 通常是数据记录的一个属性,例如时间,地点等.度量是基于数据所计算出来的考量值,通常是一个数值, 如总销售额,用户数等. 在一个sql中, GROUP BY的属性通常就是维度, 而所需要计算的值就是度量

2017-08-09 19:38:08 1397

原创 Spark函数传递:闭包和单例模式

闭包例子在Spark的集群模式中，每一个Spark应用由负责运行用户的main函数的driver program和并行运行在集群中的工作进程组成。主要的抽象数据结构是RDD，可以在集群中并行的被操作，其主要提供了两个操作：transformations以及actions。这些都是Spark的基本内容，稍微提及一下，由以下一个小例子引入正题：val lines = sc.textFile("

2016-11-24 19:55:41 3591

原创 Idea上传已有项目到git

开发经常遇到的问题是开发初期没有建立GIT仓库,开发一段时间后,需要将已有代码上传到Git, 怎么将已有项目与新建的Git仓库相关联呢?借助Idea可以轻松实现: 1:首先使用Git命令行 git clone XXXXX.git 将项目下载 2:设置文件夹显示隐藏文件夹 3:拷贝下载下来的项目根目录下的.git文件夹到想要同步的项目根目录下 4:使用idea打开需要同步的项...

2016-11-18 14:40:45 5021

原创 Spark2.0 Structured Streaming

Spark2.0新特性，DataFrame和DataSet进行了整合，极大的优化了SparkSQL引擎的运行速度，在此基础上，将Spark Streaming和Spark SQL进行了整合，增加了新的特性Structured Streaming，能够使用标准的SQL语句处理实时的数据流

2016-08-07 23:04:45 12727 6

原创 c++应用Ado访问数据库小实例(Win32控制台应用)

在网上搜索好久,发现都是MFCyin

2014-07-26 16:47:04 1117

原创 C++ 应用Ado,Win32Ado.exe已停止工作

创建数据库连接,在程序结束时shif然后就代码页就跳到里的这个函数。 void _Release() throw() { if (m_pInterface != NULL) { m_pInterface->Release(); } }

2014-07-26 16:39:28 921

原创 android编程实现卸载应用

在最近的android开发过程中,需要实现编程卸载普通

2014-05-14 11:20:23 908

原创 ubuntu上Android项目首次运行失败,Error generating final archive: Failed to create key: Cannot run program

DescriptionResourcePathLocationTypeError generating final archive: Failed to create key: Cannot run program "/home/dongyunlong/java/jdk-8-sun/jre/bin/keytool": error=13, 权限不够JAVA_HOME is set t

2014-03-27 14:47:25 2081

dongyunlon的专栏