JokerCao-CSDN博客

原创 sqoop的安装与使用

Sqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop2。 Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁，支持关系型数据库和hive、hdfs，hbase之间数据的相互导入，可以使用全表导入和增量导入。那么为什么选择Sqoop呢？高效可控的利用资源，任务并行度，超时时间。数据类型映射与转化，可自动进行，用户

2014-10-21 18:44:54 7591

原创 mysql load 从文件读入数据提示ERROR 1148

创建数据表CREATE TABLE weblogs( md5 varchar(32), url varchar(64), request_date date, request_time time, ip varchar(15))我的版本是：Server vers

2014-10-21 17:01:28 3728

原创 Ubuntu安装摄像头驱动

a) 请根据内核版本和摄像头类型从http://mxhaard.free.fr/download.html选择下载最新驱动，该驱动支持市面上大多数摄像头。b) 编译、安装连同装载摄像头驱动c) # tar xvzf gspcav1-20061216.tar.gz# cd gspcav1-20061216# make# make install# modprobe g

2014-10-18 18:11:57 7490

原创在Maprecue中利用MultipleOutputs输出多个文件

用户在使用Mapreduce时默认以part-＊命名，M

2014-10-14 10:26:53 2929

原创《深入浅出pig系列之一》pig-0.12.0-cdh5.1.2的安装与运行

这里使用的版本是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里1.Pig简介： Pig是yahoo捐献给apache的一个项目，它是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:S

2014-10-13 19:22:54 2829

翻译 explore your hadoop data and get real-time results

explore your hadoop data and get real-time results 深度api集成使你大数据访问更加容易

2014-10-13 11:01:37 1665

翻译 Choosing Between ElasticSearch, MongoDB & Hadoop

Choosing Between ElasticSearch, MongoDB & Hadoop

2014-10-13 09:39:12 2070

原创 kibana显示elasticsearch集群中flume到入的日志

elasticsearch kibana3安装

2014-10-09 15:09:28 6786 1

原创 flume 日志导入elasticsearch

Flume配置。flume生成的数据结构"_index" : "logstash-2013.01.07","_type" : "tms_jboss_syslog","_id" : "a_M9X_0YSpmE7A_bEzIFiw","_score" : 1.0, "_source" : {"@source":"file://localhost.localdomain/tmp

2014-10-09 14:13:50 8708 5

原创 Ubuntu好用的词典星际译王 stardict安装词典添加

Ubuntu系统默认没有安装Ubuntu星际译王，但Ubuntu系统的软件源中包含了该软件，我们可以使用apt-get命令或新立得软件包管理器来安装该软件。如果当前系统连接到互联网，我们用apt-get命令来安装该软件。在菜单“应用程序”→“附件”下找到“终端”项，用鼠标单击该项，则打开一个 GNOME终端窗口，在窗口中输入如下命令：sudo apt-get install stardict

2014-10-09 11:22:37 4540

原创 elasticsearch 与 hive集成

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。hive

2014-10-08 18:38:47 18798 5

原创 Mahout in Action 第二章推荐系统读书笔记思维导图

首先给出思维导图

2014-10-03 16:38:03 1655

原创 Mahout 第一章学习笔记思维导图

在

2014-10-03 15:18:41 936

原创 ubuntu hive无法初始化mysql元数据库

$HIVE_HOME/bin/hiveshow databases;报错：FAILED: Execution Error, return code 1 from org.apache.Hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.

2014-09-18 13:49:44 4027

原创 ubuntu桌面启动器创建

方法一、通过桌面启动器创建命令：gnome-desktop-item-edit ~/ --create-new 名称：eclipse命令：eclipse 图标： /opt/eclipse/icon.xpmsudo apt-get install --no-install-recommends gnome-panel方法二、通过在应用程序中创建，其实就是添

2014-09-15 18:06:58 973

转载 yum提示another app is currently holding the yum lock;waiting for it to exit

可能是系统自动升级正在运行，yum在锁定状态中。可以通过强制关掉yum进程：#rm -f /var/run/yum.pid然后就可以使用yum了。

2014-08-21 10:46:16 779

原创 java字符串分割解析类StringTokenizer的使用

StringTokenizer是字符串分隔解析类型，属于：java.util包。1.StringTokenizer的构造函数StringTokenizer（String str）：构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符（‘\t’）”、“换行符(‘\n’）”、“回车符（‘\r’）”。StringTokenizer（Stri

2014-08-20 09:08:03 3468

原创 spark sql 访问hive数据时找不mysql的解决方法

1现象：错误如下：org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table SOGOUQ1 at org.apache.hadoop.hive.ql.metadata.Hive.getTable(Hive.java:958) at org.apache.hadoop.hiv

2014-08-14 18:07:17 4700

原创 spark sql 访问hive数据时找不mysql的解决方法

错误如下：

2014-08-14 17:40:39 2706

原创 spark 1.0.1 worker启动失败：at java.lang.ClassLoader.loadClass(libgcj.so.10)

错误现象：下面是控制台的错误：

2014-08-14 13:49:32 7203

原创 redhat linux下面mysql的安装

首先需要卸载redhat自带的mysql版本这里通过rpm -qa | gre

2014-08-12 21:10:31 1096

原创 hadoop 2.2.0伪分布式安装

一：系统准备篇1.修改hostname[hadoop@cluster1 ~]$ cat /etc/sysconfig/networkNETWORKING=yesHOSTNAME=cluster1[hadoop@cluster1 ~]$ cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 local

2014-08-12 14:55:52 2134

原创配置hadoop2.2.0的时候出现错误：could not resolve hostname HotSpot(TM): Name or service not know

错误如下：[hadoop@cluster1 hadoop-2.2.0]$ sbin/stop-all.sh This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh14/08/10 07:07:57 WARN util.NativeCodeLoader: Unable to load native-hadoop

2014-08-12 13:19:38 12406 1

原创 spark on yarn 能输出结果但出现AssertionError

今天在spark1.0.1上面自己写了一个javawordcount 然后打成jar包提交到yarn上面执行：运行到最后可以在hadoop的stdout里边看到正常的结果输出hadoop: 1: 1hello: 32.2.0: 1world: 1复制代码但是在stderr里边出现in 4.089 s14/08/05 13:

2014-08-05 14:16:54 5386

原创 sparkPi在yarn模式下运行

编写运行脚本

2014-07-29 18:19:57 3633

转载如果兔子拼命奔跑乌龟怎么办

最近看到友人分享的一篇好文章，看了不下三遍，想开了很多的事情……文 / 余亦多，唐僧同志我想每个人成长的经历中，都会或多或少曾被“自卑”的情绪所笼罩。我自己就是一个一直纠缠于“失败者”情结的人。小时候因为痴肥，体育课上在同学面前抬不起头；搬到大城市，因为口音以及内向的性格，成为全班男生的出气筒；到了高中，进到全省理科实验班，才知道有些学霸的智商，是自己一辈子都无法

2014-07-28 11:05:01 896

转载关于Apache的日志

本文分五个部分：访问日志、错误日志、定制日志、日志分析、其他用法。摘自永远的Linux，做了一些修整。 Apche日志系列(1)：访问日志想要知道什么人在什么时候浏览了网站的哪些内容吗？查看Apache的访问日志就可以知道。访问日志是Apache的标准日志，本文详细解释了访问日志的内容以及相关选项的配置。一、访问日志的格式 Apache内建了记录服务器活动

2014-07-24 11:11:05 772

原创 spark-shell on yarn 出错（arn application already ended,might be killed or not able to launch applic）解决

今天想要将spark-shell 在yarn-client的状态下结果出错：[hadoop@localhost spark-1.0.1-bin-hadoop2]$ bin/spark-shell --master yarn-clientSpark assembly has been built with Hive, including Datanucleus jars on classpa

2014-07-22 17:49:15 23510 4

原创 hdfs文件校验 hdfs fsck

[hadoop@localhost ~]$ hdfs fsck /user/hadoop/spark/data/SogouQ1.txt -files -blocks -locations14/07/22 15:32:11 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... u

2014-07-22 15:39:16 3421

转载 java IntelliJ IDEA 13 注册码 IDEA序列号 License Key

java IntelliJ IDEA 13 注册码 IDEA序列号 License Key Username:[email protected]:282971-M1NWC-FP97E-MHFRO-UZQRY-F2WR0

2014-07-22 15:19:32 4205

原创 spark 1.0 在hadoop-2.0.0-cdh4.2.0上面安装成功

因为我的hadoop版本是cdh发行的4.2.0所以我直接在spark官网上下载了spark1.0 for hadoop cdh 4.2.0下载地址如下：http://spark.apache.org/downloads.html http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-cdh4.tgz下载完解压到hadoop目

2014-07-10 18:10:38 12318

原创 spark启动master时提示端口8080被占用[email protected]:8080: java.net.BindException

在root权限下通过命令netstat -apn | grep 8080

2014-07-10 14:52:16 35705 2

原创 linux安装rpm时提示：can't create transaction lock on /var/lib/rpm/.rpm.lock 错误

在linux下面用非root用户安装rp，提示can't create transaction lock on /var/lib/rpm/.rpm.lock错误。错误原因：权限问题解决方法：在终端输入“su”和密码，登录root，以root身份登录就不会有提示

2014-07-10 10:49:14 67096 4

原创 spark java api通过run as java application运行的方法

先上代码：这是spark 自带的一个example 之前只能将代码达成jar包然后在spark的bin目录下面通过spark-class来运行，这样我们就没办法将spark的程序你很好的融合到现有的系统中，所以我希望通过java函数调用的方式运行这段程序，在一段时间的摸索和老师的指导下发现根据报错的意思应该是没有将jar包提交到spark的worker上面导致运行的worker找不到被

2014-07-08 16:40:39 11971 2

原创 HBase和Hive整合后，在Hive shell中执行建表语句时错误信息如下 HiveException:Not a host:port pair: PBUF

HBase和Hive整合后，在Hive shell中执行建表语句时错误信息如下：

2014-06-18 14:07:46 2981

原创 Hadoop MapRduce 重写DBOutputFormat更新mysql数据库

在http://blog.csdn.net/sunflower_cao/article/details/28266939 写过可以通过继承

2014-06-11 15:36:04 4072 2

原创 maven hadoop2.2.0 java.io.IOException: Cannot initialize Cluster

Exception in thread "main" java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses. at org.apache.ha

2014-06-10 13:54:02 2444 1

原创 Maven java通过jdbc连接Hive 执行HQL语句

lrwxrwxrwx. 1 hadoop hadoop 12 May 14 09:53 hadoop -> hadoop-2.2.0drwxr-xr-x. 10 hadoop hadoop 4096 May 14 16:45 hadoop-2.2.0 lrwxrwxrwx. 1 hadoop hadoop 15 May 16 15:38 hive -

2014-06-06 17:16:50 9011 2

原创 Maven 创建java web project 添加struts支持 jqwidgets生成折线图

首先通过maven创建java web project第一

2014-06-06 14:02:58 1554

原创新版api mapreduce reduce结果写入mysql

import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.text.ParseExcep

2014-06-03 16:02:10 3826

spark数据集spam

空空如也