2015年10月_lazycatw

转载 Apache Eagle——eBay开源分布式实时Hadoop数据安全方案

日前，eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案—— Apache Eagle，该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎，具有高实时、可伸缩、易扩展、交互友好等特点，同时集成机器学习对用户行为建立Profile以实现实时智能实时地保护Hadoop生态系统中大数据的安全。背景随着大数据的发展，越来越多的

2015-10-29 15:07:18 836

转载 Spring/Hibernate 应用性能优化的7种方法

【编者按】对于大多数典型的 Spring/Hibernate 企业应用而言，其性能表现几乎完全依赖于持久层的性能。此篇文章中将介绍如何确认应用是否受数据库约束，同时介绍七种常用的提高应用性能的速成法，由OneAPM 工程师翻译。以下为译文如何确认应用是否受限于数据库确认应用是否受限于数据库的第一步，是在开发环境中进行测试，并使用 VisualVM 进行监控。Visual

2015-10-29 15:05:27 304

转载 Eclipse几个版本号的区别

查看Eclipse的版本号：1. 找到eclipse安装目录2. 进入readme文件夹，打开readme_eclipse.html3. readme_eclipse.html呈现的第二行即数字版本号，如：Eclipse Project Release NotesRelease 4.3.0Last revised May 29th, 2013

2015-10-29 14:15:34 570

转载流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。一个拓扑中

2015-10-22 21:25:42 704

转载 Spark VS Hadoop

1、 Spark VSHadoop有哪些异同点？ Hadoop:分布式批处理计算，强调批处理，常用于数据挖掘、分析 Spark:是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说

2015-10-22 21:05:44 624

转载 Apache Spark 入门简介

我是在2013年底第一次听说Spark，当时我对Scala很感兴趣，而Spark就是使用Scala编写的。一段时间之后，我做了一个有趣的数据科学项目，它试着去预测在泰坦尼克号上幸存。对于进一步了解Spark内容和编程来说，这是一个很好的方式。对于任何有追求的、正在思考如何着手 Spark 的程序员，我都非常推荐这个项目。今天，Spark已经被很多巨头使用，包括Amazon、eBay以及

2015-10-22 20:42:23 604

转载发布Apache Hadoop 2.6.0——异构存储，长时间运行的服务与滚动升级支持

发布Apache Hadoop 2.6.0——异构存储，长时间运行的服务与滚动升级支持我很高兴地宣布，在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt！特别是，我们很高兴在此版本中相关的三个主要片：异构存储在HDFS使用SSD和内存层，支持长时间运行在YAR

2015-10-22 20:29:55 377

转载 Hadoop，HBase，Storm，Spark到底是什么？

Hadoop，HBase，Storm，Spark到底是什么？Hadoop=HDFS+Hive+Pig+...HDFS: 存储系统MapReduce：计算系统Hive：提供给SQL开发人员（通过HiveQL）的MapReduce，基于Hadoop的数据仓库框架Pig：基于Hadoop的语言开发的HBase:NoSQL数据库Flume：一个收集处理Hadoop数据的

2015-10-22 20:28:00 425

转载 Hadoop、Spark、HBase与Redis的适用性讨论

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业，估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验，与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景（首先声明一点，本文中所指的Hadoop，是很“狭义”的Hadoop，即在

2015-10-22 20:26:02 442

我的天堂