Storm IScheduler的初次尝试

1. 介绍 本章主要介绍 IScheduler 接口的作用以及相关功能。Storm 默认的调度机制非常成熟,它能把 Topology 里面的每一个 Component 平均分配到 Worker 以及 Node 上,但是并不能充分地利用节点资源,导致 Node 上有过多的空闲资源。而 ISchedu...

2016-07-26 16:19:18

阅读数 615

评论数 0

Java Collection

在 Java2中,有一套设计优良的接口和类组成了Java集合框架Collection,使程序员操作成批的数据或对象元素极为方便。这些接口和类有很多对抽象数据类型操作的API,而这是我们常用的且在数据结构中熟知的。例如Map,Set,List等。并且Java用面向对象的设计对这些数据结构和算法进行了...

2016-07-26 16:08:30

阅读数 237

评论数 0

关于利用rz指令经过跳板机上传文件出错问题

经过跳板机之后直接rz、sz一个稍大的文件会在上传一部分后退出并显示一堆乱码,这是因为这中间有控制字符的原因。 解决办法: 加参数-e忽略控制字符:rz -e和sz -e

2016-03-29 13:29:38

阅读数 1524

评论数 0

利用VisualVM监视Storm Worker性能

一、Jstatd的相关配置1. 创建jstatd权限配置文件jstatd.all.polocygrant codebase "file:${java.home}/../lib/tools.jar" { permission java.security.AllPerm...

2016-03-28 15:48:18

阅读数 508

评论数 0

解决Maven无法下载相关依赖(update卡在25%现象)

问题记录在Eclipse下用Maven创建项目并构建相关的Maven依赖是意见非常方便的事情,配置好pom.xml文件中的dependency,update project的时候如果出现无法下载相关依赖。那么可以在pom.xml文件里面配置相关中央仓库。 <repositories&g...

2016-03-14 23:10:44

阅读数 8524

评论数 1

Storm如何保证消息不丢失 (Guaranteeing-message-processing)

转自: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从s...

2016-03-11 11:21:51

阅读数 439

评论数 0

Centos环境下Mysql5.6的安装

安装Centos有很多种,在这里我介绍的是使用yum的方法安装,这种方法的好处是安装完成后可以减少很多配置上的问题,例如环境变量、开机启动服务等。1、清除旧版Mysql 由于Centos中原本存在旧版本的Mysql,所以第一步先清除旧版本的Mysql。 rpm -qa | grep mysql...

2016-03-01 18:31:09

阅读数 331

评论数 0

决策树

一、决策树的构造 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配问题 使用数据类型:数值型和标称型 在构造决策树时,我们需要解决的第一个问题是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特...

2016-02-28 19:42:40

阅读数 856

评论数 0

Mysql的安装与主从备份

一、安装Mysql1.默认版本为5.1sudo yum install mysql-server2.创建相应文件并赋予权限mkdir /data cd data chmod 777 data touch log_bin chmod 777 log_bin //让数据库能写入,777是全权限3.主数...

2016-02-28 19:39:03

阅读数 437

评论数 0

Centos环境下MongoDB安装流程

下载与安装MongoDB1、新建配置文件: /etc/yum.repos.d/mongodb-org-3.0.repo。 2、增添mongodb-org-3.0.repo文件内容[mongodb-org-3.0] name=MongoDB Repository baseurl=https://r...

2016-02-28 19:33:33

阅读数 345

评论数 0

Eclipse配置外部Maven

1、Maven官网下载 Maven 2、配置Maven的环境变量 3、新建本地仓库Repository(例如:d:\maven\repository) 4、修改settings.xml配置 maven>conf>settings.xml 增加<localReposito...

2016-02-22 21:07:58

阅读数 1381

评论数 0

向量空间中各类距离的意义

标签: 数学基础 闵可夫斯基距离 欧氏距离Euclidean Distance 曼哈顿距离Manhattan Distance 切比雪夫距离Chebyshev Distance 夹角余弦Cosine 汉明距离Hamming Distance 杰卡德相似系数Jaccard Similarity Co...

2015-12-08 09:34:28

阅读数 7597

评论数 0

k-近邻算法

k-近邻算法标签: 机器学习实践1. k-近邻算法概述KNN的特点: 优点 缺点 适用范围 精度高、对异常值不敏感、无数据输入假定 计算复杂度高、空间复杂度高 数值型和标称型(离散型数据,变量结果只在有限目标集合中取值) 工作原理: 存在一个样本数据集合,也称作训练样本集...

2015-11-11 09:20:57

阅读数 609

评论数 0

大数据环境下的云计算与物联网

大数据环境下的云计算与物联网1.1 云计算与物联网1.1.1 云计算云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。1. 从部署模型的角度分类 (1)公有云 Public Cloud (2)私有云 Private Cloud (3)社区云...

2015-11-04 20:15:48

阅读数 987

评论数 0

流式计算的理论与技术

流式计算的理论与技术流式数据是大数据环境下的一种数据形态,其理论诞生于20世纪末,并在云计算和物联网发展下逐步成为当前的研究热点。流式数据与传统的数据是相对的。与静态、批处理和持久化的数据库相比,流式计算以连续、无边界和瞬时性为特征,适合高速并发和大规模数据实时处理的场景。当前大数据环境下的许多应...

2015-11-04 20:15:05

阅读数 9127

评论数 0

提示
确定要删除当前文章?
取消 删除