一流小风一-CSDN博客

原创读hbase的region简单程序--67

import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HRegionInfo;import org.apache.hadoop.hbase.clien

2016-07-18 02:29:47 483

原创简单的hbase监控程序，用于监测hbase集群是否正常运行--66

package moniter;import java.io.IOException;public class hbasemoniter_new { public final static String url = "tcp://dsdfsd/sdfs"; // public static String config = null; // public static String s

2016-07-18 02:25:10 1807

原创一些hadoop脚本用于hbase（mvn）--65

1.扫表#!/bin/bashsource /etc/profileif [ $# -ne 3 ];then echo "scan.sh table start end" exit 1fihadoop fs -rm -r /home/hbase/checker/a_$1hadoop jar ./hbase.aa-0.1.jar hbase.TabelScan -Dmapred

2016-07-18 02:13:56 429

原创一些hadoop脚本事例--64

1.用于启动jar包读hbase表数据到hdfs#!/bin/bashsource /etc/profileif [ $# -ne 1 ];then echo "aaa.sh table" exit 1fitable=$1hadoop fs -rm -r /user/ads/hbase_tests/$tablehadoop jar ./aasss.jar hbase.hfi

2016-07-18 02:09:31 505

原创 Hbasebulkload方法--63

1.import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.h

2016-07-14 02:37:32 440

原创实用生成md5方法--62

/* *简单生成md5方法*/import java.security.MessageDigest;public class Utils { private static char hexDigits[] = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' };

2016-07-14 02:18:34 376

原创 Hbase练习事例--61

1.以前写的一些功能函数方法：public class dtest_test { public final static String url = "tcp://test_test"; @SuppressWarnings("deprecation") public static void main(String[] args) throws Exception { IHbas

2016-07-13 02:55:44 315

原创 Hbase事例基本方法--60

package llf.com;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoo

2016-07-12 01:37:57 303

原创 Hbase_shell底层源码乱砍乱伐--59

大约10个月没有更新博客了，一直在学习新的东西，忙的不可开胶，现在一边整理做过的事情，以便复习一下。白天要工作也只有后半夜才有时间看书了。------青春无悔下面的代码是关于Hbase shell脚本的源码的改写，屏蔽了一些功能，便于理解和安全操作。现在没时间逐一解释关键点的含义，以后有时间再改，替换掉集群中：hbase_home:/lib/ruby/shell.rb# She

2016-07-12 01:07:11 846

原创 Hbase_shell底层源码乱砍乱伐--59

大约10个月没有更新博客了，一直在学习新的东西，忙的不可开胶，现在一边整理做过的事情，以便复习一下。白天要工作也只有后半夜才有时间看书了。------青春无悔下面的代码是关于Hbase shell脚本的源码的改写，屏蔽了一些功能，便于理解和安全操作。现在没时间逐一解释关键点的含义，以后有时间再改，替换掉集群中：hbase_home:/lib/ruby/shell.rb# She

2016-07-12 01:06:08 604

原创 Streaming(Test改改 )

package llfimport java.io.{PrintWriter, OutputStreamWriter, IOException, BufferedOutputStream}import java.nio.ByteBufferimport java.nio.charset.Charsetimport java.util.concurrent.{TimeUnit, Execu

2015-09-11 15:11:07 622

原创 Kafka + Streaming 测试 --57

1.producerpackage llfimport java.utilimport java.util.Propertiesimport org.apache.kafka.clients.producer.{ProducerConfig, KafkaProducer, ProducerRecord}/** * Created by root on 15-9-2. */obj

2015-09-08 16:53:19 506

原创 Kafka集群简单操作--56

1.启动zookeeper集群：在quad101~quad105五台节点上分别启动 bin/zookeeper-server-start.sh config/zookeeper.properties(leader随机).2.启动kafka集群：在quad101~quad105五台节点上分别启动 bin/kafka-server-start.sh config/server.properties

2015-09-08 16:44:57 452

转载 kafka--简介

一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例

2015-09-04 17:12:44 329

原创 Zookeeper集群搭建+Kafka集群搭建--55

Zookeeper 是一个分布式。开放源码的分布式应用程序协调服务，是Google Chubby的一个开源实现，大多数的分布式应用都需要Zookeeper的支持，这篇文章先简单的和大家分享如何搭建一个zookeeper集群。配置环境：5台Centos6.5系统的服务器第一步：安装 JDK/JRE第二步：下载zookeeper ： http://zookeeper.apache.

2015-08-25 23:01:06 475

原创 Streaming测试用例（改）--54

package llfimport java.io.{PrintWriter, OutputStreamWriter, IOException, BufferedOutputStream}import java.util.concurrent.{TimeUnit, Executors}import java.net.ServerSocketimport spire.std.bytei

2015-08-06 22:55:50 805

原创 sparkstreaming性能测试简单例子--53

package llfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkContext, SparkConf}/** * Created by root on 15-

2015-07-31 11:28:01 1525 1

转载 Netty

原文地址：http://lippeng.iteye.com/blog/1907279Netty是什么？本质：JBoss做的一个Jar包目的：快速开发高性能、高可靠性的网络服务器和客户端程序优点：提供异步的、事件驱动的网络应用程序框架和工具通俗的说：一个好使的处理Socket的东东如果没有Netty？远古：java.net

2015-07-29 17:46:51 372

转载 Jetty

原文地址：http://blog.csdn.net/pingyongpy/article/details/6904681原文地址：http://www.ibm.com/developerworks/cn/java/j-lo-jetty/index.htmlJetty简介Jetty 是一个用 Java 实现、开源、基于标准的，并且具有丰富功能的 Http 服务器和 Web 容器，

2015-07-29 15:42:49 326

原创 Spark:K-Means||算法原理、K-Means++算法原理--52

K-Means||算法原理为：（在基于Spark MLlib中的K-Means算法初始化K个类簇中心时的方法之一，另一种是随机选取K个中心）1.为每个run的K-Means随机选择一个初中心点，然后再平均随机选择2k个点，每个点被选择的概率和该点到类簇中心的距离成正比；2.对选出的这2k个点做一次K-Means++，找出k个初始化类簇中心，在这2k个左右的点上基于k初始化类簇中心执行多次L

2015-07-06 20:50:37 2803

原创 spark:SparkSQL练习--51

package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.ListBuffer/** * Create

2015-06-26 23:26:53 943

原创 spark:架构+运行机制的一些总结--50

Hadoop中包含计算框架MapReduce和分布式文件系统HDFS，spark是一个计算框架//中间结果：spark保存到内存、Hadoop保存到磁盘，spark将执行模型抽象为通用的有向无环图通用计划（DAG）///////////////////////////////////////////////////////////////////////////////////////

2015-06-25 09:57:48 2367

原创 spark：协同过滤--49

上一周了解了一下协同过滤在spark中的应用，但是找了几本书也没找到具体的算法流程······每天像只没头的苍蝇一样东一头西一头乱飞···每天室友们睡觉之后才能效率高一点/////////////////////////////////////////////////////////////////////////////////////////////////////////////////

2015-06-16 00:15:54 635

原创 spark：spark1.4.0+Tachyon--48

感觉好久没更新博客了···spark1.4.0版本已经出来了···其中sparkR终于出来、spark为应用提供了REST API来获取各种信息（jobs、stages、tasks、storage info），使用这个REST搭建监控可以很容易了解DAGScheduler的运行细节。···在新版本中shuffle的map阶段输出会被序列化（spill发送到磁盘上的文件小了、GC效率提高了）···P

2015-06-15 23:33:18 496

原创 spark：聚类分析KMeans--47

监督学习从给定的训练数据集中学习出一个函数（模型），当新的数据到来时，可以根据这个函数（模型）预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注（标量) 的。常见的监督学习算法包括回归分析和统计分类。– 二元分类是ML 要解决的基本问题，将测试数据分成两个类。如垃圾邮件的判别、房贷是否允许等等问题的判断。– 多元分类是二元分类的逻辑延伸。例如，在

2015-06-08 15:30:50 963

原创 spark：SparkSQL应用--46

由于spark1.3.x版本后不支持hive，所以我对某本很火的spark书上的两个例子进行改写使用sparksql：package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg

2015-06-03 11:32:14 462

原创初学spark--scala--45

spark1.3.1默认不支持Hive，如果想要在SparkSQL中使用HiveContext需要自己编译spark的版本。在Hive里定义一个数据库saledata和三个表MDate、MStock、MStockDetail，并装载数据，具体命令如下：CREATE DATABASE SALEDATA;use SALEDATA;//Date.txt定义了日期的分类，将每天分别赋予

2015-05-31 21:45:24 581

原创 spark：线性回归--44

从上次更新博客到现在整整十天，这期间一直试着学习线性回归算法：Linear Regression，以前只看过数据结构的算法从没学过这种类型的算法。先了解算法的原理再去看代码，但我觉得自己想要独立写出线性回归的完整代码还有很长路要走···写一些对线性回归算法的心得···一：先写一些在看书过程中随手写的一些小概念，比较乱回归分析就是利用样本（已知数据），产生拟合方程，从而（对未知数据）迚行预测

2015-05-25 17:12:28 1590

原创 spark：总结篇--43

我先吹会儿牛···最近又重新看了一遍《Spark大数据处理：技术、应用与性能优化》的spark框架和运算模型这两章，随着时间的推移每一次都能看到比之前更深一点的东西，我想这就是收获吧···《Spark快速数据处理》这是我看的第一本关于spark的书，启蒙教材《Spark大数据处理技术》这本书图书馆一直显示在订购中···《Apache Spark源码剖析》估计我是当当网这本书的前几个买家

2015-05-15 00:09:02 888

原创 spark：学习杂记--42

《快学scala》第十一章课后习题：1.根据优先级规则,3 + 4 -> 5和3 -> 4 + 5是如何被求值的？2.BigInt类有一个pow方法,但没有用操作符字符。Scala类库的设计者为什么没有选用**(像Fortran那样)或者^(像Pascal那样)作为乘方操作符呢？3.实现Fraction类，支持+*/操作。支持约分，例如将15/-6变为-5/2。除以最大公约数,像这样:

2015-05-14 23:47:16 574

原创 spark：学习杂记+案例--41

《快学scala》第十章课后习题：1 .java.awt.Rectangle类有两个很有用的方法translate和grow,但可惜的是像java.awt.geom.Ellipse2D这样的类没有。在Scala中，你可以解决掉这个问题。定义一个RenctangleLike特质,加入具体的translate和grow方法。提供任何你需要用来实现的抽象方法,以便你可以像如下代码这样混入该特质: v

2015-05-10 23:21:32 456

原创 spark：学习杂记+案例--40

《快学scala》第九章课后习题：1.编写一小段Scala代码，将某个文件中的行倒转顺序(将最后一行作为第一行,依此类推)2.编写Scala程序,从一个带有制表符的文件读取内容,将每个制表符替换成一组空格,使得制表符隔开的n列仍然保持纵向对齐,并将结果写入同一个文件3.编写一小段Scala代码,从一个文件读取内容并把所有字符数大于12的单词打印到控制台。如果你能用单行代码完成会有额外奖

2015-05-10 23:07:06 514

原创 spark：学习杂记--39

《快学scala》第七章课后习题：1.编写示例程序，展示为什么package com.horstmann.impatient不同于package compackage horstmannpackage impatient2.编写一段让你的Scala朋友们感到困惑的代码，使用一个不在顶部的com包这样可以吗？3.编写一个包random,加入函数nextInt():In

2015-05-07 22:40:03 480

原创 spark：学习杂记--38

《快学scala》第五章课后习题：1.改进5.1节的Counter类,让它不要在Int.MaxValue时变成负数2.编写一个BankAccount类，加入deposit和withdraw方法，和一个只读的balance属性3.编写一个Time类，加入只读属性hours和minutes，和一个检查某一时刻是否早于另一时刻的方法before(other:Time):Boolean。Tim

2015-05-07 22:27:57 520

原创 spark：学习杂记--37

《快学scala》第四章课后习题：1.设置一个映射,其中包含你想要的一些装备，以及它们的价格。然后构建另一个映射，采用同一组键，但是价格上打9折2.编写一段程序，从文件中读取单词。用一个可变映射来清点每个单词出现的频率。读取这些单词的操作可以使用java.util.Scanner:3.重复前一个练习，这次用不可变的映射4.重复前一个练习，这次使用已排序的映射，以便单词可以按顺序

2015-05-05 00:23:16 567

原创 spark：学习杂记--36

快学scala第三章课后题：1.编写一段代码，将a设置为一个n个随机整数的数组，要求随机数介于0(包含)和n(不包含)之间.package KSimport scala.util.Random/** * Created by sendoh on 2015/5/2. */object answer1 { def main(args: Array[String]): Unit

2015-05-03 23:14:39 765

原创 spark：学习杂记+仿写案例--35

1.LogQuery：以MapReduce方式处理Apachelog//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////package llfimport org.apache.spark

2015-05-03 23:02:49 483

原创 spark：仿写案例--34

1.LocalALS：ALS是交替最小二乘法，通常用于推算系统算法////////////////////////////////////////////////////////////////////////////////////////////////////////////////package llfimport org.apache.commons.math3.linear

2015-04-30 23:21:51 675

原创 spark：学习杂记Hbase--33

////////////////////////////////////////////////////////////////////////////////////1. Write a function to sumall integers between two given numbers a and b: def sumInts(a: Int, b: Int): Int

2015-04-30 23:12:40 552

原创 spark：仿写案例--32

1.Cassandra：测试Cassandra数据库，Cassandra是由Facebook开发后再开源的/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

2015-04-27 11:32:14 428

空空如也

初学spark······语句问题