- 博客(19)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 LINUX定时任务(crontab)
Linux的定时任务需要借助crontab命令 crontab -e 进入编辑任务的模式,其实就是一个vi编辑器里面写上任务任务的格式为:基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星
2016-11-29 22:26:57 484 1
原创 分而治之_大数据
问题: 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将ur
2016-11-25 11:30:39 1079 3
原创 flume_kafka联合使用
在大数据的使用中常常将flume和kafka联合起来使用,实用的时候主要是一个配置的文件信息 配置文件信息如下#agent sectionproducer.sources = sproducer.channels = cproducer.sinks = r#source section#producer.sources.s.type = seqproducer.sources.s.typ
2016-11-24 22:22:12 1329
原创 kafka的数据发送和接收java_API
往消息队列里面发送数据import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.io.IOException;import java.util.Properties;import scala.math.Num
2016-11-24 21:51:56 15188 2
原创 kafka的安装
集群安装 1、解压 2、修改server.properties#不同的节点只需要修改id后面的数字就好了broker.id=1#这里是zookeeper集群的地址zookeeper.connect=master:2181,slave1:2181,slave2:21813、将zookeeper集群启动4、在每一台节点上启动brokerbin/kafka-server-start.sh con
2016-11-24 21:26:13 598 1
原创 flume自定义sink
java文件:package com.dle;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import org.apache.flume.Channel;import org.apache.flume.Co
2016-11-23 22:16:17 833
原创 flume-ng的简单使用
首先说下怎么安装吧,flume-ng的安装,flume-ng安装特别简单 1:首先下载安装包 解压,然后进入到conf目录下,首先把flume-env.sh.template文件修改名字为flume-env.sh,然后修改flume-env.sh里面的JAVA_HOME的地址,2:测试 bin/flume-ng version 如果能出现版本信息就说明安装成功了,接下来就可以使用了使用的时候主要
2016-11-22 20:48:40 2660 1
原创 redis安装
安装环境:redis3.2.5 sentos6.7 一:先介绍下单机版的安装: redis是用源码安装的,所以需要先编译,需要先安装c++, 1: yum install gcc-c++ 2: redis-3.2.5.tar.gz拷贝到/usr/local下 **3: 解压**redis-3.2.5.tar.gz tar -zxvf redis-3
2016-11-20 23:21:57 1063 3
原创 Hbase协处理器(Coprocessor)
观察者的设计意图是允许用户通过插入代码来重载协处理器框架的upcall方法,而具体的事件触发的callback方法由HBase的核心代码来执行。协处理器框架处理所有的callback调用细节,协处理器自身只需要插入添加或者改变的功能。以HBase它提供了三种观察者接口:RegionObserver:提供客户端的数据操纵事件钩子:Get、Put、Delete、Scan等。 WALObserver:提
2016-11-17 20:13:37 830
原创 HBase的分页-PageFilter
使用PageFilter分页效率比较低,应为每次都需要扫描前面的数据,直到扫描到所需要查的数据,但是查询下一页的时候可以直接利用上一页的rowkey来直接查出Filter是定义每次scan得出多少条记录, 下面看用PageFilter实现分页的(最好使用rowksy,不建议使用过滤器,过滤器效率太低,设计表的时候设计一个好的rowkey可以带来好多的便利的条件)代码记录:package hbase
2016-11-17 17:38:01 12774
原创 hbase集群搭建
1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下3.1修改hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_55//告诉hbase使用外部的zk export HBASE_MANAG
2016-11-14 22:03:31 705 1
原创 zookeeper和hadoop连接
单独安装hadoop或者zookeeper可以参考这两个博客 zookeeper的安装连接 http://blog.csdn.net/hanlipenghanlipeng/article/details/53157525 hadoop的安装地址http://blog.csdn.net/hanlipenghanlipeng/article/details/51960235 hadoop的安装连
2016-11-14 12:23:49 4505 2
原创 zookeeper安装
1.上传zk安装包2.解压3.配置(先在一台节点上配置) 3.1添加一个zoo.cfg配置文件 # $ZOOKEEPER是安装zookeeper的根目录 cd $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg*3.2修改配置文件(zoo.cfg)* #/itcast/zookeeper-3.4.
2016-11-14 11:44:06 546
原创 java中嵌入执行shell语句
java中执行shell语句借助的是Process类和RunTime类 下面一个例子相信你会理解怎么把shell脚本嵌入到java中执行的package test;import java.io.IOException;public class ShellTest { public static void main(String[] args) throws IOException, Int
2016-11-13 10:35:23 3230
原创 Lucene查询语句
项(Term)一条搜索语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。 单独项就是一个单独的单词,例如”hello” , “lucene”。 短语是一组被双引号包围的单词,例如”hello lucene”。 多个项可以用布尔操作符连接起来形成复杂的查询语句(接下来您就会看到)。 域(Field) Lucene支持域。您可以指定在某一个域中搜索,或者就使用
2016-11-12 22:56:19 2122
原创 luceneAPI的简单使用(java)
lucene是一个全文检索引擎工具包,下面来简单的介绍下Lucene常用的API介绍1:对一个文件下面的所有文件进行索引创建:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import org.apache.lucene.analysis.Analyzer;import org.apac
2016-11-12 22:38:33 3170
原创 java RMI(远程调用)
使用分为四步走 1:写一个需要实现的接口(需要继承Remote) 2:实现1写的接口(继承UnicastRemoteObject 类) 3:写一个注册类,用于服务端的使用(需要有main方法) 4:写一个客户端程序,用来进行远程调用(需要有main方法) IService接口:(需要继承Remote)import java.rmi.Remote; import java.rmi.Remo
2016-11-12 17:06:21 497
原创 HADOOP_PRC
服务public interface MyBiz extends VersionedProtocol { long PROTOCOL_VERSION = 12321443L; String hello(String name);}public class MyBizImpl implements MyBiz { @Override public long get
2016-11-03 12:18:06 378
servlet读取jsp中的file内容
2016-08-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人