weipanp-CSDN博客

转载 akka remote实例

Akka的设计目标就是为分布式准备的，因此所有Actor之间的交互都是通过消息，且所有动作都是异步的。这种做法就是为了确保Akka的所有功能无论是在单独的JVM，还是包含了成百上千机器的Cluster，都是可用的。然而，本地与分布式总是存在区别，主要牵涉到两点：消息需要支持序列号；消息传递的可靠性问题；为了保证本地处理与分布式处理的透明化，Akka几乎没有特

2015-08-04 16:23:22 1892

转载 actors角色模型系列之一 actors介绍以及akka 框架的使用入门

摘要春天来了感觉真好，这一章开始讲actors角色模型系列,讲诉什么是角色模型，角色模型应用的领域并发事务消息驱动消息中间件网络传输，本系列第一张讲解自己对角色模型的理解以及基本认识使用以后所有文章演示章节的源代码我以后将会放到我的一个项目下，这是我前面讲querydsl时候做的一个项目。现在基本架构放到了githubhttps://github.com/zhuyu

2015-06-10 16:01:00 2019

原创 kafka 实例

1、produceimport java.util.{Date, Properties}import kafka.producer.{KeyedMessage, Producer, ProducerConfig}import scala.util.Randomobject ScalaProducerExample extends App { val events = arg

2015-06-02 17:33:00 696

原创 kafka部署及实例命令彻底删除topic

1、安装zookeeper2、安装kafkaStep 1: 下载Kafka点击下载最新的版本并解压.> tar -xzf kafka_2.10-0.8.2.1.tgz> cd kafka_2.10-0.8.2.1Step 2: 启动服务Kafka用到了Zookeeper，所有首先启动Zookper，下面简单的启用一个单实例的Zookkeeper服务。可以在命令的结尾加

2015-06-02 15:32:54 10314 1

原创 spark部署一台机器时sparkstreaming无结果数据打印的问题

如：bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999此时默认 --master 为 local . 这看起来毫无问题，但我在一台1核1G的主机上测试该样例，却永远无法成功。原因这位老兄已道出：NoteI experienced exactly the sa

2015-06-02 15:27:27 1897

原创 SparkStreaming的worldCount实例

1、搭建好spark环境，sparkstreaming不需要什么特殊配置即可以使用2、SparkStreaming简介SparkStreaming是实时计算框架，它的数据源可以是socket或kafka等各种消息组件，具体详细的知识不多赘述3、实例import org.apache.spark._import org.apache.spark.storage.StorageL

2015-06-02 15:16:34 866

原创 Spark源码IDEA远程调试

我们在编写Spark Application或者是阅读源码的时候，我们很想知道代码的运行情况，比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式，但是，logging方式调试代码有很多的局限和不便。下面是介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码。　　本文以调试Spark Application为例进行说明，本文用到的IDE是I

2015-04-20 17:13:23 938

原创 IDEA调试sparksql,打包并提交运行

1、创建一个新的工程，参考spark的windows开发环境搭建2、添加依赖（1）scala依赖 org.scala-lang scala-library ${scala.version} org.scala-lang scala-compiler ${scala.version} org.scala-lang scala-reflect

2015-04-17 16:27:13 6315

转载 Spark 学习资源收集

目录[-]（一）spark 相关安装部署、开发环境（二）spark 架构、原理与编码（三）spark 监控与管理（四）YARN & spark（五）spark 数据平台架构（六）spark 应用与实践（七）spark 机器学习实践（八）Scala 学习指北（九）Spark book附：（一）spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式安装指南

2015-04-17 10:48:49 1251

转载比较全的Spark中的函数使用及编程模型

1. Spark中的基本概念在Spark中，有下面的基本概念。Application:基于Spark的用户程序，包含了一个driver program和集群中多个executorDriver Program：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor：为某Applicati

2015-04-16 14:41:36 3117

转载 sparkSQL1.2.1入门之七：ThriftServer和CLI

spark1.2相较于spark1.0，最大的差别就在于spark1.1增加了万人期待的CLI和ThriftServer。使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手sparkSQL，在真正意义上进入了SQL时代。下面先简单介绍其使用，限于时间关系，以后再附上源码分析。1：ThriftServer和CLI的命令参数A：令人惊讶的CLI刚部署好spark1.2就迫

2015-04-15 17:54:14 899

原创 Windows + IDEA + SBT 打造Spark源码阅读环境

Spark源码阅读环境的准备Spark源码是有Scala语言写成的，目前，IDEA对Scala的支持要比eclipse要好，大多数人会选在在IDEA上完成Spark平台应用的开发。因此，Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法（默认已经装了java，JDK）。下面列举搭建此环境需要的各个组件：IDEA，有两个版本：Ultim

2015-04-14 15:55:46 608

安装了spark之后，可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL

2015-04-14 11:26:09 468

原创 spark的windows开发环境搭建

Spark1.2.1开发环境搭建(适合windows环境)更多01.环境准备下载scala并安装，最好下载imsi版直接双击安装2.IDEA的安装官网jetbrains.com下载IntelliJ IDEA，有Community Editions 和& Ultimate Editions，前者免费，用户可以选择合适的版本使用。根据安装指导安装IDEA后，需要

2015-04-14 10:43:05 2283

转载 awk命令

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfred Aho

2015-03-17 14:01:00 428

转载 sed命令

转载：http://blog.chinaunix.net/u/22677/showart_1076318.html 1.简介sed是非交互式的编辑器。它不会修改文件，除非使用shell重定向来保存结果。默认情况下，所有的输出行都被打印到屏幕上。sed编辑器逐行处理文件（或输入），并将结果发送到屏幕。具体过程如下：首先sed把当前正在处理的行保存在一个临时缓存区中（也称为模式空间），

2015-03-17 13:58:01 334

原创 maven编译spark1.2 on hadoop-2.6.0

1、安装maven(1)设置MAVEN_HOME（2）将$MAVEN_HOME/bin参加PATH变量。（3）设置maven_opts内存参数export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"若不运行，编译时必定出现如下错误，因为spark编译需要很大的内存

2015-03-09 08:58:39 1282

原创 Vbox虚拟机知识

Vbox安装了centos默认是鼠标不可以在虚拟机与本机间自由切换需要安装增强包安装增强包的过程如下：1、点击设备安装增强功能2、安装完成后桌面上出现一个光盘3、打开终端进入root用户cd /mediallcd 目录按如下执行发现错误，错误原因是kernel包缺少（注意一定要安装需要的这个版本）yum install kernel-de

2015-03-06 09:14:50 638

原创 oracle sql查询使用函数

查询过程中经常使用复杂的函数才能达到目的1、nvlNVL( A, B) 　　功能：如果A为NULL，则NVL函数返回B的值，否则返回A的值。　　注意事项：A和B必须为同一数据类型，除非显示的使用TO_CHAR函数。例：NVL(TO_CHAR(num1),str2 ) 其中num1代指某个数字类型的值。　 NVL的扩展-NVL2(A,B,C

2015-03-04 10:52:46 510

原创 eclipse常用快捷键

一、Eclipse 常用快捷键Eclipse的编辑功能非常强大，掌握了Eclipse快捷键功能，能够大大提高开发效率。Eclipse中有如下一些和编辑相关的快捷键。 1. 【ALT+/】此快捷键为用户编辑的好帮手，能为用户提供内容的辅助，不要为记不全方法和属性名称犯愁，当记不全类、方法和属性的名字时，多体验一下【ALT+/】快捷键带来的好处吧。 2. 【Ct

2015-01-21 16:39:48 333

转载 eclipse工程获取工程/文件目录

eclipse，工程/文件目录 1. 获取系统根目录System.getProperty("user.home");例如输出，C:\Users\hutu 2. 获取工程目录System.getProperty("user.dir");例如输出，D:\workspaces\workspace1\myProject 3. 新建文件，默认位于工程目录

2015-01-21 15:34:30 3174

原创 hadoop的rmr命令一定要慎用,rmr删除恢复

早上来到公司，看一下昨天晚上的迁移数据，很欣喜啊，9T的数据已经迁移完并且速度很快，每秒400M左右，就想整理一下目录，一不小心误删除，把所有的数据都删除了，好伤心啊，就在网上查找，看到hadoop有trash功能，但默认是0，即不保留，好伤心当时没配置这个参数。trash的配置在core-site.xml里增加如下配置 fs.trash.interval 60*24*2

2015-01-20 09:30:07 12793

原创 hbase启动错误org.apache.hadoop.hbase.TableExistsException: hbase:namespace

org.apache.hadoop.hbase.TableExistsException: hbase:namespace这个错误只会出现在安装独立zookeeper的方案中，当以前安装了一个版本，后来又换了一个新版本的时候会包这个错误，是因为上次安装的hbase信息在zookeeper目录下已经存在造成的，具体错误如下解决方案：登录到zookeeper节点的机器上cd /

2015-01-19 10:01:29 4569

原创 hdfs集群间数据迁移

1、同版本的集群或集群内数据迁移（直接运行以下命令几乎不会有错误出现）hadoop distcp hdfs://namenodeip:9000/user/root hdfs://namenodeip:9000/user/root2、不同版本的集群数据迁移hadoop distcp hftp://namenodeip1:50070/user/root hdfs://namenod

2015-01-14 17:49:08 10741

原创 win7上eclipse提交mr至hadoop2.6分布式运行错误集锦

1、下载hadoop2.6，编译插件2、Eclipse安装插件3、安装maven插件，配置jar包，实现自动将工程打包jar4、创建mapreduce工程，运行wordcount5、在其中遇到各种错误(1)java.lang.NullPointerException修复方法：下载hadoop-common-2.2.0-bin-master，解压将其中的winutils.

2015-01-14 17:43:49 5203

转载 hadoop2.6、hbase0.96、hive1.13环境搭建过程错误总结

1、2011年开始接触了hadoop相关的东西，但那时这些全都弄过，但现在又在弄hadoop2.6相关的东西，感觉以前的好多都已经忘了2、现在把hadoop2点滴记录下来但好多错误已修复也懒得麻烦复现大致从网上搜集了这么多，供大家参考，也勉励自己多学习hadoop错误总结1.master: mkdir: cannot create directory `/usr/local/had

2015-01-14 17:37:02 1591

原创 hive0.13安装配置元数据库mysql

安装hive1、下载apache-hive-0.13.1-bin.tar.gzwget http://apache.fayea.com/apache-mirror/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz2、解压apache-hive-0.13.1-bin.tar.gzTar -zxvf apache-hive-0.13.1-

2015-01-14 17:35:25 730

原创基于hadoop2.6.0的hbase0.96.2安装配置

1.下载并解压hbase-0.96.2.tar.gzwget http://mirrors.cnnic.cn/apache/hbase/hbase-0.96.2/hbase-0.96.2-hadoop2-bin.tar.gz 2.解压hbase-0.96.2.tar.gztar zxvf hbase-0.96.2.tar.gz1. 修改环境变量vi /etc/profile

2015-01-14 17:33:44 1938

原创 hadoop2.6的HA配置

前面讲述了一般的配置方式，下面讲HA的配置1、选择两台机器做namenode ,210.10与210.11，命名为ns1与ns2 命名空间为mycluster2、选择三台机器部署journal ，或多余三个的奇数台，journal作用不做详述主要修改core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml 3

2015-01-14 16:58:45 932

原创 hadoop2.6安装

1. 准备工作1) 版本选择Hadoop+Hbase+Hive一般设计大数据业务的必选组件，首先选择兼容的组件进行搭建至关重要，环境搭建好不会轻易的换版本，选择一个兼容性强，稳定的版本。本文选择组件hadoop2.6.0,Hbase0.96.2,Hive1.13.1,现阶段此种组合算是比较新的。0.98.8版本兼容性不好，以至于遗弃而选择0.96.2.软件官方下载地址：http:/

2015-01-14 16:56:47 951

原创 hadoop集群间迁移数据DataX

准备工作：（1）安装svn(2)安装rpmbuild(3)安装dos2unixDataX的安装编译1、下载DataX代码svn co http://code.taobao.org/svn/datax/trunk datax2、rpm打包的配置文件在datax/rpm下面有spec文件，rpm打包的配置文件rpmbuild --ba XXXXX.spec注

2015-01-09 15:40:41 2016

原创 shell计算时间的方法

1、当天日期echo $(date "+%Y-%m-%d")2014-12-232、昨天日期 echo $(date -d last-day "+%Y-%m-%d %H:%M:%S")2014-12-22 18:02:143、上个月echo $(date -d last-month "+%Y-%m-%d %H:%M:%S")2014-11-23 18:03:13

2014-12-23 18:12:35 782

翻译文本数据入oracle数据库

1、建立控制文件OPTIONS (skip=1,rows=128) -- sqlldr 命令显示的选项可以写到这里边来,skip=1 用来跳过数据中的第一行unrecoverable --表示不记录执行日志，可选参数，不写时默认有执行日志，当数据量很大时可增加此项，此选项必须要与DIRECT共同应用。LOAD DATAINFILE "users_da

2014-12-23 17:41:08 736

原创好记性不如随手写

已经步入社会，已经换过一份工作有了很多经历，有了很多感悟失去的很多，得到的也很多忘记了很多，学习的也很多了解的很多，记住的却很少博客记录生活与工作

2014-12-19 15:26:49 438

原创 eclipse 打jar包

eclipse打jar包并运行

2014-12-19 14:25:52 873

weipanp的专栏