- 博客(12)
- 资源 (5)
- 收藏
- 关注
转载 Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:1JavaRDD myRDD = sc.parallelize(Arrays.asList(1,2,3));Scala版本如下:
2016-03-20 15:47:26 2208
转载 JAVA操作Redis增删改查
[java] view plain copypackage sgh.main.powersite; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.List;
2016-03-13 15:44:52 2487
转载 Spark容错机制
引入一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后
2016-03-12 22:16:22 1042
原创 Netcat使用方法
netcat被誉为网络安全界的‘瑞士军刀',相信没有什么人不认识它吧...... 一个简单而有用的工具,透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具,能够直接由其它程序和脚本轻松驱动。同时,它也是一个功能强大的网络调试和探测工具,能够建立你需要的几 乎所有类型的网络连接,还有几个很有意思的内置功能(详情请看下面的使用方法)。 在中国,它的WI
2016-03-11 18:35:38 1487
原创 Windows下安装部署solr 5.5
注意:本文中的tomcat8所在目录为D:\tools\apache-tomcat-8.0.32目录下 1、官网下载solr-5.5.0.zip解压到D:\tools\solr-5.5.0目录 解压之后的solr-5.5.0文件夹包含了几乎所有你需要的东西。2、复制solr-5.5.0/server/solr-webapp/webapp到tomcat下的webapps目录下,改名为
2016-03-09 21:37:24 10308 1
转载 Kafka入门经典教程
问题导读1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是
2016-03-08 19:53:03 784
原创 windows安装kafka的集群配置
下载kafka二进制包kafka_2.11-0.9.0.1.tgz,解压到D:\tools\kafka_2.11-0.9.0.11.拷贝conf/server.properties为 第一个节点server-3.properties,修改如下内容: broker.id=3port=9093 host.name=localhostlog.dirs=D:\\tools\\k
2016-03-08 15:37:13 2642
转载 Kafka入门经典教程
问题导读1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是
2016-03-08 08:37:18 682
原创 windows 安装 zookeeper 并测试
一、序言 以下是我对zookeeper 的一些理解: zookeeper 作为一个服务注册信息存储的管理工具,好吧,这样说得很抽象,我们举个“栗子”。 栗子1号: 假设我是一家KTV的老板,我同时拥有5家KTV,我肯定得时刻监视我KTV 的情况吧,是不是有人打架,或者发生火灾什么的,这时候我会给设置一个视频监控,然后每一家都连接到
2016-03-04 11:38:19 615
转载 Apache Kafka:下一代分布式消息系统
简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时能自
2016-03-03 20:53:05 715
转载 Apache Thrift - 可伸缩的跨语言服务开发框架
Apache Thrift 是 Facebook 实现的一种高效的、支持多种编程语言的远程服务调用的框架。本文将从 Java 开发人员角度详细介绍 Apache Thrift 的架构、开发和部署,并且针对不同的传输协议和服务类型给出相应的 Java 实例,同时详细介绍 Thrift 异步客户端的实现,最后提出使用 Thrift 需要注意的事项。前言:目前流行
2016-03-03 15:08:57 429
转载 Hadoop Pig学习笔记 各种SQL在PIG中实现
我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下: tmp_file_1:Txt代码 zhangsan 23 1 lisi 24 1 wangmazi 30 1 meinv
2016-03-03 09:26:35 604
Apache Http Server 64位
2015-07-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人