- 博客(17)
- 资源 (25)
- 收藏
- 关注
转载 Flume NG 简介及配置实战
Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志
2016-08-31 09:14:23 631
原创 flume采集本地数据到hdfs
配置:agent1.sources = spooldirSourceagent1.channels = fileChannelagent1.sinks = hdfsSinkagent1.sources.spooldirSource.type=spooldiragent1.sources.spooldirSource.spoolDir=/opt/flumeagent1.s
2016-08-30 19:34:20 6470
转载 hadoop报错report: Call From xxx to xxx failed on connect
flume异常日志:hdfs dfsadmin -report,报错如下:“report: Call From slave1.hadoop/192.168.1.106 to namenode:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more detai
2016-08-30 10:05:38 4534
转载 逻辑回归算法--Logistic回归
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poiss
2016-08-26 16:52:24 3144
转载 MapReduce源码分析之InputSplit分析
MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job提交时如
2016-08-26 11:31:58 689
原创 TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit
异常:java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit at org.apache.hado
2016-08-25 17:06:29 3153
转载 spark知识框架
第1章 Spark数据分析导论 11.1 Spark是什么 11.2 一个大一统的软件栈 21.2.1 Spark Core 21.2.2 Spark SQL 31.2.3 Spark Streaming 31.2.4 MLlib 31.2.5 GraphX 31.2.6 集群管理器 41.3 Spark的用户和用途 41.3.1 数据科
2016-08-23 11:40:47 1093
转载 CDH(Cloudera)与hadoop(Apache)对比
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Pla
2016-08-17 15:57:16 1013
转载 大数据入门,你需要懂这四个常识
一、大数据分析的五个基本方面 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出
2016-08-15 11:00:26 6470
转载 linux split命令参数及用法详解---linux分割文件命令
功能说明:分割文件。Split:按指定的行数截断文件格式: split [-n] file [name]参数说明:-n: 指定截断的每一文件的长度,不指定缺省为1000行file: 要截断的文件name: 截断后产生的文件的文件名的开头字母,不指定,缺省为x,即截断后产生的文件的文件名为xaa,xab....直到xzz例一:split -55 myfile ff
2016-08-10 16:49:39 8998
转载 hadoop的mapreduce作业中经常出现Java heap space解决方案
我们经常遇到这样的问题,内存溢出,内存溢出的原因是很简单,不够用了,不够用该怎么设置,通过水设置。可以参考下面案例一、hadoop的mapreduce作业中经常出现Java heap space解决方案常常被一些用户问到,说“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”10/01/10 12:48:01 INF
2016-08-10 16:30:20 11409
原创 hive -hiveconf hive.root.logger=DEBUG,console 用这个把日志看看
hive -hiveconf hive.root.logger=DEBUG,console用这个把日志看看
2016-08-04 13:08:09 4736
原创 MR多表关联代码
JoinMain:package com.cys.tables;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import or
2016-08-03 15:07:39 1475
原创 java.nio.channels.SocketChannel[connected local=/192.168.10.51:45306 remote=slave1/192.168.10.51:500
经过日志的初步分析,发现3600s这个线索,从job的configuration中,初步查找出参数dfs.client.socket-timeout,单位毫秒。-Ddfs.client.socket-timeout=3600000试验性地将这个参数修改为60ms,可以看出出现超时的概率非常大,但会不断重试以继续:2014-09-26 12:53:03,184 WARN [main] o
2016-08-02 14:44:55 7251
wireshark-v3.4.2.zip
2021-04-20
shell脚本案例-俄罗斯方块
2021-03-01
gsoap2.8.11&2.8.1双版本.txt
2021-02-05
gsoap2.8.11离线安装包
2021-02-05
yum离线安装包(真实有效)
2021-02-05
PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz
2020-11-03
NVIDIA-Linux-x86_64-418.88.run
2020-09-02
Ubuntu16.04 openssh安装包
2020-07-16
全栈性能java网络爬虫从入门到精通实战.pdf
2020-05-26
Ubuntu操作系统ssh安装包
2020-05-25
qt-opensource-linux-x64-5.7.1.run
2020-03-26
qt-opensource-linux-x64-5.5.1.run
2020-03-26
curl-7.49.0.tar.gz
2020-03-26
libevent-2.0.21-stable.tar.gz
2020-03-26
Linux libevent2.1安装包
2020-03-26
redis505.rar
2020-03-04
支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出.txt
2019-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人