2017年02月_Xlucas

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创流处理旅程——storm之spout介绍

核心 Spout中方法的说明1、Spout数据源消息源Spout是storm的Topology中的消息生产者。2、spout介绍 2、1spout的结构 Spout是storm的核心组件之一，最源头的接口是IComponent2、2Spout发出的消息 Spout从外部获取数据后，向Topology中发出的Tuple可以是可靠的，也可以是不可靠的。注意：一个可靠的消息源可以重新发射

2017-02-16 23:53:47 7560

原创 Spark征程——Spark基础2

核心内容 1、spark的概念 2、spark与mapreduce的比较 3、spark中RDD的相关概念 4、spark shell的使用一、Spark的相关概念 Spark的概念：Spark是分布式的、主要基于内存的、特别适合于迭代计算的大数据计算框架。接下来从3个方面去理解Spark的概念：分布式：所谓分布式就是有很多台机器在运行，每个机器运行任务中的一部分，提高了任务运行的

2017-02-14 23:32:55 897

原创流处理旅程——storm之tuple介绍

核心介绍tuple的作用tuple元组 tuple是storm的主要数据结构，并且是storm中使用的最基本单元、数据模型和元组tuple描述 tuple就是一个值列表，tuple中的值可以是任何类型的，动态类型的tuple的fields可以不用声明，默认情况下，storm中的tuple支持私有类型、字符串、字节数组等作为它的字段值，如果使用其他类型，就需要序列化该类型。 tuple的

2017-02-13 23:05:17 6353 1

原创流处理旅程——storm之入门实例

核心创建Topology并向集群提交任务topology是storm的核心概念之一，是将Spout和Bolt融合在一起的纽带，在storm集群中运行，完成实时计算的任务，在storm集群中，topology的定义是一个Thrift结构，并且nimbus就是一个thrift服务，可以提交由任何语言创建的topology1、创建Topology 在创建一个Topology之前，设计一个Topol

2017-02-09 23:14:08 708

转载 sql on hadoop方案(5)

对于数据分析师来说，SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力，可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务，而MapReduce原本是大数据批处理计算框架，并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度： 1. 用一种更快的SQL执行引擎取代MapReduce。

2017-02-09 21:27:20 616

转载 sql on hadoop方案(4)

一）选型：Shib+Presto 应用场景：即席查询（Ad-hoc Query） 1.1.即席查询的目标使用者是产品/运营/销售运营的数据分析师；要求数据分析师掌握查询SQL查询脚本编写技巧，掌握不同业务的数据存储在不同的数据集市里；不管他们的计算任务是提交给数据库还是 Hadoop，计算时间都可能会很长，不可能在线等待；所以，使用者提交了一个计算任务（PIG/SQL/H

2017-02-09 21:24:11 670

开源大数据查询分析引擎现状大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域，撼动了RDBMS在商用数据

2017-02-09 21:21:10 487

转载 sql on hadoop方案(2)

8个值得关注的SQL-on-Hadoop框架数据的操作语言是SQL，因此很多工具的开发目标自然就是能够在Hadoop上使用SQL。这些工具有些只是在MapReduce之上做了简单的包装，有些则是在HDFS之上实现了完整的数据仓库，而有些则介于这两者之间。这样的工具有很多，来自于Shoutlet的软件开发工程师Matthew Rathbone最近发表了一篇文章，他列举了一些常用的工具并对各个工具的

2017-02-09 21:14:08 1022

转载 sql on hadoop方案(1)

什么是实时分析（在线查询）系统？大数据领域里面，实时分析（在线查询）系统是最常见的一种场景，通常用于客户投诉处理，实时数据分析，在线查询等等过。因为是查询应用，通常有以下特点： a. 时延低（秒级别）。 b. 查询条件复杂（多个维度，维度不固定），有简单（带有ID)。 c. 查询范围大（通常查询表记录在几十亿级别）。 d. 返回结果数小（几十条甚至几千条）。 e. 并发数要求高（几百上

2017-02-09 21:11:17 903

原创流处理旅程——storm的部署

核心： 1、环境准备 2、storm的本地启动模式 3、storm的分布安装 4、storm的参数介绍 5、storm启动 6、storm UI 各项属性介绍 7、storm的停止1、环境 1、jdk1.7 2、zookeeper 3、SSH服务 4、python2.7 5、准备3台机器 master 192.168.18.144 slave1 192.

2017-02-05 22:37:49 1571

原创流处理旅程——认识storm

核心 1、什么是实时流计算 2、实时计算处理流程 3、strom的特点 4、storm的设计思想 5、storm与hadoop的角色和组件比较 6、storm的核心组件1、什么是实时流计算所谓的实时流计算，就是近几年由于数据得到广泛应用之后，在数据持久化性建模不满足现状的情况下，急需数据流的瞬间建模或者计算处理。这种实时计算的应用实例有金融服务、网络监控、电信数据管理、web

2017-02-03 23:28:30 1607

selenium2.53包

此包包含了IE、google的驱动文件，是selenium2.53的软件，详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包，包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Xlucas的博客