自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

韩利鹏

大数据云计算,算法

  • 博客(19)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 LINUX定时任务(crontab)

Linux的定时任务需要借助crontab命令 crontab -e 进入编辑任务的模式,其实就是一个vi编辑器里面写上任务任务的格式为:基本格式 : *  *  *  *  *  command 分  时  日  月  周  命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星

2016-11-29 22:26:57 484 1

原创 分而治之_大数据

问题: 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将ur

2016-11-25 11:30:39 1079 3

原创 ThreadLocal的用法

为什么要使用ThreadLocal

2016-11-25 10:58:31 445

原创 flume_kafka联合使用

在大数据的使用中常常将flume和kafka联合起来使用,实用的时候主要是一个配置的文件信息 配置文件信息如下#agent sectionproducer.sources = sproducer.channels = cproducer.sinks = r#source section#producer.sources.s.type = seqproducer.sources.s.typ

2016-11-24 22:22:12 1329

原创 kafka的数据发送和接收java_API

往消息队列里面发送数据import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.io.IOException;import java.util.Properties;import scala.math.Num

2016-11-24 21:51:56 15188 2

原创 kafka的安装

集群安装 1、解压 2、修改server.properties#不同的节点只需要修改id后面的数字就好了broker.id=1#这里是zookeeper集群的地址zookeeper.connect=master:2181,slave1:2181,slave2:21813、将zookeeper集群启动4、在每一台节点上启动brokerbin/kafka-server-start.sh con

2016-11-24 21:26:13 598 1

原创 flume自定义sink

java文件:package com.dle;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import org.apache.flume.Channel;import org.apache.flume.Co

2016-11-23 22:16:17 833

原创 flume-ng的简单使用

首先说下怎么安装吧,flume-ng的安装,flume-ng安装特别简单 1:首先下载安装包 解压,然后进入到conf目录下,首先把flume-env.sh.template文件修改名字为flume-env.sh,然后修改flume-env.sh里面的JAVA_HOME的地址,2:测试 bin/flume-ng version 如果能出现版本信息就说明安装成功了,接下来就可以使用了使用的时候主要

2016-11-22 20:48:40 2660 1

原创 redis安装

安装环境:redis3.2.5 sentos6.7 一:先介绍下单机版的安装: redis是用源码安装的,所以需要先编译,需要先安装c++, 1: yum install gcc-c++ 2: redis-3.2.5.tar.gz拷贝到/usr/local下 **3: 解压**redis-3.2.5.tar.gz tar -zxvf redis-3

2016-11-20 23:21:57 1063 3

原创 Hbase协处理器(Coprocessor)

观察者的设计意图是允许用户通过插入代码来重载协处理器框架的upcall方法,而具体的事件触发的callback方法由HBase的核心代码来执行。协处理器框架处理所有的callback调用细节,协处理器自身只需要插入添加或者改变的功能。以HBase它提供了三种观察者接口:RegionObserver:提供客户端的数据操纵事件钩子:Get、Put、Delete、Scan等。 WALObserver:提

2016-11-17 20:13:37 830

原创 HBase的分页-PageFilter

使用PageFilter分页效率比较低,应为每次都需要扫描前面的数据,直到扫描到所需要查的数据,但是查询下一页的时候可以直接利用上一页的rowkey来直接查出Filter是定义每次scan得出多少条记录, 下面看用PageFilter实现分页的(最好使用rowksy,不建议使用过滤器,过滤器效率太低,设计表的时候设计一个好的rowkey可以带来好多的便利的条件)代码记录:package hbase

2016-11-17 17:38:01 12774

原创 hbase集群搭建

1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下3.1修改hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_55//告诉hbase使用外部的zk export HBASE_MANAG

2016-11-14 22:03:31 705 1

原创 zookeeper和hadoop连接

单独安装hadoop或者zookeeper可以参考这两个博客 zookeeper的安装连接 http://blog.csdn.net/hanlipenghanlipeng/article/details/53157525 hadoop的安装地址http://blog.csdn.net/hanlipenghanlipeng/article/details/51960235 hadoop的安装连

2016-11-14 12:23:49 4505 2

原创 zookeeper安装

1.上传zk安装包2.解压3.配置(先在一台节点上配置) 3.1添加一个zoo.cfg配置文件 # $ZOOKEEPER是安装zookeeper的根目录 cd $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg*3.2修改配置文件(zoo.cfg)* #/itcast/zookeeper-3.4.

2016-11-14 11:44:06 546

原创 java中嵌入执行shell语句

java中执行shell语句借助的是Process类和RunTime类 下面一个例子相信你会理解怎么把shell脚本嵌入到java中执行的package test;import java.io.IOException;public class ShellTest { public static void main(String[] args) throws IOException, Int

2016-11-13 10:35:23 3230

原创 Lucene查询语句

项(Term)一条搜索语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。 单独项就是一个单独的单词,例如”hello” , “lucene”。 短语是一组被双引号包围的单词,例如”hello lucene”。 多个项可以用布尔操作符连接起来形成复杂的查询语句(接下来您就会看到)。 域(Field) Lucene支持域。您可以指定在某一个域中搜索,或者就使用

2016-11-12 22:56:19 2122

原创 luceneAPI的简单使用(java)

lucene是一个全文检索引擎工具包,下面来简单的介绍下Lucene常用的API介绍1:对一个文件下面的所有文件进行索引创建:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import org.apache.lucene.analysis.Analyzer;import org.apac

2016-11-12 22:38:33 3170

原创 java RMI(远程调用)

使用分为四步走 1:写一个需要实现的接口(需要继承Remote) 2:实现1写的接口(继承UnicastRemoteObject 类) 3:写一个注册类,用于服务端的使用(需要有main方法) 4:写一个客户端程序,用来进行远程调用(需要有main方法) IService接口:(需要继承Remote)import java.rmi.Remote; import java.rmi.Remo

2016-11-12 17:06:21 497

原创 HADOOP_PRC

服务public interface MyBiz extends VersionedProtocol { long PROTOCOL_VERSION = 12321443L; String hello(String name);}public class MyBizImpl implements MyBiz { @Override public long get

2016-11-03 12:18:06 378

mongodb-Linux版本

linux平台的mongodb版本是3.2.18.tgz,可以直接解压使用,想不要资源分的,但是选择不了,尴尬

2017-12-04

scala源码-2.11.x.zip

scala源码2.11.x,是学习scala,查看源码的必备东西,拿走不谢,本来是不要分的,可是不能不选,就少选点吧。

2017-11-03

SQLyog Enterprise_jb51.net.zip

能够对对数据库进行可视化的操作,内涵破解工具,简单好用

2016-10-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除