![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
shanelisy
多年从事SOA项目实施、电商平台开发及互联网项目实践
展开
-
Twitter-Storm与Zookeeper集群安装…
Storm使用大量的Clojure动态编程语言,是用于解决大规模海量数据实时流分布式计算的编程框架,本文详细记录集群环境搭建过程。1. 搭建Zookeeper集群;2. 安装Storm依赖库;3. 下载并解压Storm发布版本;4. 修改storm.yaml配置文件;5. 启动Storm各个后台进程。1.搭建Zookeeper集群Storm使用Zookeeper协调集原创 2016-01-09 15:52:55 · 733 阅读 · 0 评论 -
初识Kafka
(一)Kafka设计背景及原因Kafka最初被LinkedIn设计来处理活动流数据(activitystream data)和系统处理数据(operaitonal data)。活动流数据是指像pageview、用户搜索关键词等等通过用户操作产生的数据,它的常见场景有时间线(timeline)即新鲜事提醒、用户浏览量搜索量排名等等。系统处理数据是服务器性能相关的数据,如CPU、负载、用户请原创 2016-01-09 15:53:02 · 1071 阅读 · 1 评论 -
Storm 流计算编程模型
(一)基础介绍随着互联网的更进一步发展,从Portal信息浏览型到Search信息搜索型到SNS关系交互传递型,以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化。对效率的要求让大家对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链甚至信息网的方向发展,这样必然带来数据在各个维度的交叉关联,数据爆炸已不可避免。因此流式处理加NoSQL产品应运而生,分别解决实时框架和数据原创 2016-01-09 15:52:57 · 1165 阅读 · 0 评论 -
Trident Storm 批处理流…
本文继《Strom流计算编程模型》之后继续介绍Storm上层高级批处理抽象Trident。(五)高级抽象1、Trident StateStorm是对实时流计算的分布式处理框架,在对Stream中封装的Tuple处理过程中涉及到很多中间过程对Tuple进行存储、查询、更新、聚合、分组等变化,Storm的高级抽象Trident将这些变化封装为TridenState对象,使得Trident可以原创 2016-01-09 15:52:59 · 1771 阅读 · 0 评论 -
Hortonworks HDP Ambari自动安装
(一)前提条件设置HOST的FQDN名称SSH免密码禁用IPv6关闭防火墙关闭SELinux设置NTP(二)安装步骤# cd /etc/yum.repos.d/# wget http://public-repo-1.hortonworks.com/ambari/centos6/1.x/updates/1.6.0/ambari.repo# yum clean all原创 2016-01-09 15:53:04 · 1157 阅读 · 0 评论 -
CDH Parcels 离线安装
Installation Path A - Automated Installation by ClouderaManager要求所有机器都能连网,而且外国网站不太稳定。一旦失败,重装非常痛苦。Installation PathB - Manual Installation Using Cloudera ManagerPackages设置RedHat/CentOS或者Debia原创 2016-01-09 15:53:07 · 4546 阅读 · 0 评论 -
Phoenix on HBase
(一)概要Apache Phoenix是基于BSD许可开源的一个Java中间层,可以让开发者在ApacheHBase上执行SQL查询。Apache Phoenix主要特性:嵌入式的JDBC驱动,实现了大部分的java.sql接口,包括元数据API 可以通过多部行键或是键/值单元对列进行建模 完善的查询支持,可以使用多个谓词以及优化的扫描键 DDL支持:通过CREATE TABLE原创 2016-01-09 15:53:09 · 905 阅读 · 0 评论 -
Spark 编程起步
Spark是一个开源的分布式计算系统,提供快速的数据分析功能。 官网地址 http://www.spark-project.org/ 据说性能高出hadoop很多(个人理解主要是因为两点:内存和cache),而且相对更加简单,灵活。非常适合需要反复迭代的计算,比如机器学习。RDDstrack lineage information that can be used to efficientl原创 2016-01-09 15:53:11 · 604 阅读 · 0 评论