- 博客(552)
- 资源 (25)
- 收藏
- 关注
原创 [root@sdzn-cdh01 /]# find . -name 文件名 ---搜索目录位置 whereis 名称
find . -name 文件名
2016-09-01 14:11:06 658
转载 Flume NG 简介及配置实战
Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志
2016-08-31 09:14:23 631
原创 flume采集本地数据到hdfs
配置:agent1.sources = spooldirSourceagent1.channels = fileChannelagent1.sinks = hdfsSinkagent1.sources.spooldirSource.type=spooldiragent1.sources.spooldirSource.spoolDir=/opt/flumeagent1.s
2016-08-30 19:34:20 6470
转载 hadoop报错report: Call From xxx to xxx failed on connect
flume异常日志:hdfs dfsadmin -report,报错如下:“report: Call From slave1.hadoop/192.168.1.106 to namenode:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more detai
2016-08-30 10:05:38 4531
转载 逻辑回归算法--Logistic回归
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poiss
2016-08-26 16:52:24 3144
转载 MapReduce源码分析之InputSplit分析
MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job提交时如
2016-08-26 11:31:58 689
原创 TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit
异常:java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit at org.apache.hado
2016-08-25 17:06:29 3152
转载 spark知识框架
第1章 Spark数据分析导论 11.1 Spark是什么 11.2 一个大一统的软件栈 21.2.1 Spark Core 21.2.2 Spark SQL 31.2.3 Spark Streaming 31.2.4 MLlib 31.2.5 GraphX 31.2.6 集群管理器 41.3 Spark的用户和用途 41.3.1 数据科
2016-08-23 11:40:47 1093
转载 CDH(Cloudera)与hadoop(Apache)对比
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Pla
2016-08-17 15:57:16 1013
转载 大数据入门,你需要懂这四个常识
一、大数据分析的五个基本方面 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出
2016-08-15 11:00:26 6468
转载 linux split命令参数及用法详解---linux分割文件命令
功能说明:分割文件。Split:按指定的行数截断文件格式: split [-n] file [name]参数说明:-n: 指定截断的每一文件的长度,不指定缺省为1000行file: 要截断的文件name: 截断后产生的文件的文件名的开头字母,不指定,缺省为x,即截断后产生的文件的文件名为xaa,xab....直到xzz例一:split -55 myfile ff
2016-08-10 16:49:39 8994
转载 hadoop的mapreduce作业中经常出现Java heap space解决方案
我们经常遇到这样的问题,内存溢出,内存溢出的原因是很简单,不够用了,不够用该怎么设置,通过水设置。可以参考下面案例一、hadoop的mapreduce作业中经常出现Java heap space解决方案常常被一些用户问到,说“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”10/01/10 12:48:01 INF
2016-08-10 16:30:20 11407
原创 hive -hiveconf hive.root.logger=DEBUG,console 用这个把日志看看
hive -hiveconf hive.root.logger=DEBUG,console用这个把日志看看
2016-08-04 13:08:09 4736
原创 MR多表关联代码
JoinMain:package com.cys.tables;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import or
2016-08-03 15:07:39 1475
原创 java.nio.channels.SocketChannel[connected local=/192.168.10.51:45306 remote=slave1/192.168.10.51:500
经过日志的初步分析,发现3600s这个线索,从job的configuration中,初步查找出参数dfs.client.socket-timeout,单位毫秒。-Ddfs.client.socket-timeout=3600000试验性地将这个参数修改为60ms,可以看出出现超时的概率非常大,但会不断重试以继续:2014-09-26 12:53:03,184 WARN [main] o
2016-08-02 14:44:55 7250
原创 Permission denied: user=administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr-x
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。(如果想看最终解决问题的方法拉到最后,如果想看我的问题解决思路请从上向下看)问题描述上传文件的代码:package com.cys.map
2016-07-29 11:02:27 23797 16
转载 org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:
已验证一个Hadoop小程序:将Hello world写入文件中,简要代码:[java] view plain copy public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); J
2016-07-29 10:55:15 3079
转载 解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 等一系列问题
未验证org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 等一系列问题,ljavalangstring 一.简介 Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.
2016-07-29 10:51:24 982
转载 Windows 下配置 Eclipse 连接 Hadoop 开发环境
环境及配置:Eclipse选择非常重要,至少我是在这花费了很多时间,几乎试遍了所有的eclipse版本,都不成功,最后选择了SpringSource Tool,真的很好用,下载地址:http://www.springsource.org/downloads/stsCygwinhadoop是基于Linux平台的,如其启动,关闭 配置需要在Linux命令行中执行,cygwin是用来模拟
2016-07-28 16:49:15 780
原创 Linux采用sqoop定时从关系型数据库中导入hbase中
在Hbase创建buyer_name表以及簇列buyer_infocreate 'buyer_name','buyer_info'crontab -e#crm57 10 * * * /usr/home/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/bin/sqoop import --append --connect jdbc:oracle:t
2016-07-27 11:18:15 1395
转载 Oracle监听器起不来, TNS:could not resolve the connect identifier specified
Oracle这个玩样儿,使用很普及,但是也很脆弱,不懂的不可以随意修改安装后的文件,记得之前动了日志文件,监听器居然也挂掉了,D:\oracle\oradata\orcl\REDO03.LOG。这几天,又是安装了个比较冷门的软件,Oralce又被弄坏了,TNS又起不来了~ 写在这里,是因为我解决了这个监听器起不来的问题么?恰恰相反,我折腾了半天,也没有解决。网上的一些方法都试了,说实在
2016-07-27 09:16:08 1252
原创 HBase的子节点的RegionServer无法启动
一:异常[root@slave1 ~]# jps8364 Jps4555 NodeManager7978 QuorumPeerMain4450 DataNode[root@slave1 ~]# tail -100 /usr/home/hbase-0.98.19-hadoop2/llib/ logs/ [root@slave1 ~]# tail -100 /usr/
2016-07-26 18:07:54 10815
转载 Linux定时任务没有执行问题分析与总结
现在总结一下:定时任务没有被执行有以下两种可能:1、被执行的脚本没有执行权限,这种情况 直接授权chmod 755 xxx.sh2、被执行的脚本编码有问题,这种情况直接转码 dos2unix xxx.sh我们也可下载一个windows版的dos2unix,转完码后再上传到Linux服务器补充:linux定时任务每天早上6点 0 6 * * * echo "
2016-07-26 14:27:55 13651
转载 Linux定时任务
未验证全过程,每分钟都会在test.txt里输入当前时间): 1. 以普通用户登录linux系统(我用的是CentOS4.1) 2. $crontab –e说明:系统默认的编辑器是VIM,如果不是请加上以下shell:$EDITOR=vi$export EDITOR 3. 输入”*/1 * * * * date >> $HOME/test.t
2016-07-26 13:35:33 10621
转载 自动调整linux系统时间和时区与Internet时间同步
调整linux系统时间和时区与Internet时间同步 一、修改时区:# cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime修改为中国的东八区# vi /etc/sysconfig/clockZONE="Asia/Shanghai"UTC=falseARC=false二、配置新的时间日期设定:# date
2016-07-26 11:16:03 8480
转载 windows 环境下Eclipse开发MapReduce环境设置
1、Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Windows 7 旗舰版 Eclipse
2016-07-25 10:52:58 5684
转载 数据库管理工具——SQuirreL SQL Client使用入门
如果您的工作要求您在一天之中连接许多不同的数据库 (oracle、DB2、mysql、postgresql、Sql Server等等),或者你经常需要在多个不同种类的数据库之间进行数导入导出。那么SQuirreL SQL Client 将会是比较理想的数据库客户端链接工具。 简单介绍: SQuirrel SQL Client是一个用Java写的数据库客户端,用JDBC统一数据库访问
2016-07-22 13:58:05 28434 2
转载 Hive最新数据操作详解(超级详细)
数据操作能力是大数据分析至关重要的能力。数据操作主要包括:更改(exchange),移动(moving),排序(sorting),转换(transforming)。Hive提供了诸多查询语句,关键字,操作和方法来进行数据操作。一、 数据更改 数据更改主要包括:LOAD, INSERT, IMPORT, and EXPORT 1. LOAD DATA load关键字的作用是将数据移动到hive中
2016-07-14 17:51:02 54680 1
原创 Hive metastore database is not initialized. Please use schematool(...) to create the schema.
一:问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.异常操作如下:
2016-07-14 09:02:35 5009 1
转载 解决 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) 问题。
最近新装好的mysql在进入mysql工具时,总是有错误提示:# mysql -uroot -pEnter password:ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)使用网上介绍的方法修改root用户的密码:# mysqladmin -uroot -p
2016-07-13 16:06:23 22475 2
转载 MySQL同步到Hive操作步骤
1. 下载sqoop地址为:http://archive.cloudera.com/cdh/3/下载相应版本,如sqoop-1.2.0-CDH3B4.tar.gz2. 下载 hadoop地址为:http://archive.cloudera.com/cdh/3/,版本可以为hadoop-0.20.2-CDH3B4.tar.gz3.解压 sqoop-1.2.0-CDH3B4.tar.
2016-07-12 15:32:21 8936
转载 文本文件导入HBase中
文本文件导入到Hbase中 创建表sudo su -su - hadoop./hbase shellcreate 'table1',{NAME => 'DF', VERSIONS => 5} www.2cto.com 配置环境1.修改hadoop环境 vi /opt/hadoop-1.0.0/conf/hadoop-env.sh增加如下信息 export HBA
2016-07-12 11:36:59 2783
wireshark-v3.4.2.zip
2021-04-20
shell脚本案例-俄罗斯方块
2021-03-01
gsoap2.8.11&2.8.1双版本.txt
2021-02-05
gsoap2.8.11离线安装包
2021-02-05
yum离线安装包(真实有效)
2021-02-05
PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz
2020-11-03
NVIDIA-Linux-x86_64-418.88.run
2020-09-02
Ubuntu16.04 openssh安装包
2020-07-16
全栈性能java网络爬虫从入门到精通实战.pdf
2020-05-26
Ubuntu操作系统ssh安装包
2020-05-25
qt-opensource-linux-x64-5.7.1.run
2020-03-26
qt-opensource-linux-x64-5.5.1.run
2020-03-26
curl-7.49.0.tar.gz
2020-03-26
libevent-2.0.21-stable.tar.gz
2020-03-26
Linux libevent2.1安装包
2020-03-26
redis505.rar
2020-03-04
支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出.txt
2019-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人