- 博客(483)
- 资源 (14)
- 收藏
- 关注
原创 Hadoop项目实战---黑马论坛日志分析
1、项目描述 通过对黑马技术论坛的apache common日志进行分析, 计算论坛关键指标,供运营者决策。 2、数据情况 每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源【跟着两个访问的Url】 4.访问状态 5.本次流量 截取部分数据如下:27.19.74.143 - - [30/May/2013:17:38:21 +0800] "GET /static/im
2016-07-22 15:06:54 12381 10
原创 MySql表链接详解(结合Hadoop中的Hive数据仓库)
在做Hadoop黑马日志分析项目的过程中,进行了表的链接。本篇博客将结合Hive详细说明Mysql表链接。: 1、统计每日的pv(浏览量)hive> create table hmbbs_pv > as select count(1) as pv from hmbbs_table;查看运行结果:hive> describe hmbbs_pv;OKpv bigintTime
2016-07-22 12:13:38 1285
原创 Hive---外部分区表的创建
hive> create external table tv2(id int,name string,sex string) partitioned by(day int) > row format delimited > fields terminated b
2016-07-22 08:59:54 3500
原创 Sqoop---Got exception in update thread: com.mysql.jd bc.exceptions.jdbc4.MySQLSyntaxErrorException
问题:通过sqoop将mysql中的数据导入到hdfs的时候,日志停留在map 100% reduce 0%不动。如下所示:16/07/21 11:46:09 INFO mapreduce.Job: Job job_1469064014798_0012 running in uber mode : false16/07/21 11:46:09 INFO mapreduce.Job: map 0%
2016-07-21 16:28:19 2235
原创 Hadoop学习重点体系结构
1、Hadoop伪分布集群的搭建 2、WordCount程序与FlowCount程序的编写,MapReduce的运行流程 3、MapReduce的3中运行模式 4、Mapreduce中Mapper任务数的分之策略
2016-07-20 18:34:24 993
原创 linux shell编程入门笔记
shell编程的重要性: 对于hadoop程序员,通常需要熟悉shell编程,因为shell可以非常方便的运行程序代码。 shell文件格式:文件名后缀通常是.sh#!/bin/sh[先指定文件下面用的是哪一个sh]#这里是注释shell中的变量: (1)变量不需要声明,初始化不需要指定类型 (2)变量名称只能有字母、数字、下划线组成,不能使用数字开头 (3)分类: 临时变量
2016-07-20 15:32:19 2985 1
原创 Hadoop在linux系统下的集群时间同步
核心命令:查看linux的系统时间: date设置linux的系统时间: date --set=string查看linux的硬件时钟: hwclock将硬件时钟与系统时钟同步:hwclock --hctosys 其中--hctosys表示Hardware Clock to SYStem clock基础知识: Linux将时钟分为系统时钟(System Clock)和硬件(Real Ti
2016-07-19 11:01:04 3106
转载 linux修改系统时间
两步 (1)date 042612492005 (2)hwclock -w 第一步的意思是设置时间,设置完了可以用date命令查看对不对…注意是月日时分年 第二步的意思是写入主板的rtc芯片..
2016-07-19 09:51:48 884
原创 Linux--Date命令详解
date命令的帮助信息 [root@localhost source]# date –help 用法:date [选项]… [+格式] 或:date [-u|–utc|–universal] [MMDDhhmm[[CC]YY][.ss]] 以给定的格式显示当前时间,或是设置系统日期。-d,–date=字符串 显示指定字符串所描述的时间,而非当前时间 -f,
2016-07-19 08:23:47 1047
原创 Hbase调试时遇到的问题总结
问题1:在hbase中不能创建表,并抛出异常: ERROR: Can’t get master address from ZooKeeper; znode data == null 解决措施: (1)停止所有服务,只看到有jps (2)删除掉所有zk节点的/data/zookeeper的version-2目录和文件,只保留myid文件。 (3)删除掉所有hadoop节点的tmp和logs目录
2016-07-18 10:24:26 1675
原创 如何利用MapReduce的分治策略提高KNN算法的运行速度
集群环境介绍:hadoop2.4.1 64位6台服务器:hadoop11 NameNode 、SecondaryNameNodehadoop22 ResourceManagerhadoop33 DataNode、NodeManagerhadoop44 DataNode、NodeManagerhadoop55 DataNode、NodeManagerhadoop66
2016-07-17 21:17:50 5416
原创 Hadoop2.0集群、Hbase集群、Zookeeper集群、Hive工具、Sqoop工具、Flume工具搭建总结
实验开发环境所用软件:[root@hadoop11 local]# lltotal 320576-rw-r--r-- 1 root root 52550402 Mar 6 10:34 apache-flume-1.6.0-bin.tar.gzdrwxr-xr-x 7 root root 4096 Jul 15 10:46 flumedrwxr-xr-x. 11 root
2016-07-15 13:32:46 4617
原创 Exception in thread “main” java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop
今天用sqoop从mysql数据库向hdfs中导入数据时,抛出下列异常:Exception in thread “main” java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected?原因:sqoop的版本与hadoop的
2016-07-15 10:36:04 1890
原创 mysql jdbc在hive中没有安装导致的两个问题
问题–hive操作的时候抛出异常:hive> show databases;FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection factoryNestedThrowables:java.lang.reflect.InvocationTarg
2016-07-14 21:41:35 1069
原创 Plugin 'FEDERATED' is disabled. /usr/sbin/mysqld: Table 'mysql.plugin' doesn't exist
问题:在linux上安装mysql的时候出现Plugin ‘FEDERATED’ is disabled. /usr/sbin/mysqld: Table ‘mysql.plugin’ doesn’t exist问题。[root@hadoop11 mysql]# more hadoop11.err160714 14:51:30 mysqld_safe Starting mysqld daemon
2016-07-14 20:51:37 12508 1
转载 linux 安装rpm包时遇到error:Failed dependencies解法方法
转载网址:http://blog.sina.com.cn/s/blog_80b4fe5c01018sgr.html
2016-07-14 14:24:49 2771
原创 HBase Shell输入命令无法删除问题的解决技巧
问题:通过SecureCRT对hbase进行shell操作时,命令行无法删除。 解决方案: 问题得到解决!
2016-07-14 08:52:06 1325
转载 Hadoop与之对应的Hbase版本问题
转载网址:http://blog.csdn.net/caoshichaocaoshichao/article/details/13096279
2016-07-13 18:47:38 904
原创 针对例会中出现的split块的位置问题的解决方案
本文作者:王婷婷 针对例会中出现的问题,本人提出的解决方案如下: 涉及到的具体技术实现细节包括hdfs fsck机制与脚本批量执行机制,先分别介绍。 1、hdfs fsck机制 在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block块信息和位置信息等。 集群情况:[root@hadoop11 local]# jps28234 N
2016-07-10 19:19:34 1013
原创 基于Yarn平台的MapReduce运行机制
基于Yarn平台的MapReduce运行机制如下图所示: 详细步骤: 1>用户向yarn平台提交应用程序 2>yarn平台的ResourceManager接收到我们客户端提交给的MapReduce程序后,把程序交给某个NodeManager节点,随后在这个NodeManager节点上启动一个进程— MRAppMaster 3>MRAppMaster首先向ResourceManager注册
2016-07-08 19:17:05 1135
原创 Hadoop中的自定义数据类型(序列化、反序列化机制)详解
大家都知道,Hadoop中为Key的数据类型必须实现WritableComparable接口,而Value的数据类型只需要实现Writable接口即可;能做Key的一定可以做Value,能做Value的未必能做Key.但是具体应该怎么应用呢?—-本篇文章将结合手机上网流量业务进行分析。 先介绍一下业务场景:统计每个用户的上行流量和,下行流量和,以及总流量和。 本次描述所用数据: 日志格式描述:
2016-07-07 15:18:06 2994
原创 基于MapReduce的手机上网流量统计分析
Hadoop简介:适合大数据的分布式存储与计算平台。 运行在Hadoop之上的大型服务器集群: 数据情况:(摘取部分) 字段描述:时间戳、手机号码、AP mac、AP mac、访问的网址、网址种类、上行数据包、下行数据包、流量、访问状态。 手机上网流量统计结果:(先展示统计部分结果) MapReduce程序开发步骤: 1、maper函数的编写 2、reducer函数的编写
2016-07-06 21:11:17 5782 5
原创 Hadoop开发----经验总结3
之前在Hadoop的开发过程中,一直犯了一个比较严重的错误:一直将windows下的hadoop的本地运行模式理解为hadoop的集群运行模式,现将Hadoop的运行模式总结如下: 1、独立模式即本地运行模式(standalone或local mode) 无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式
2016-07-05 21:40:30 1218
原创 MapReduce程序的3种集群提交运行模式详解---基于Windows与Linux两种开发环境
继上一篇博客—-Hadoop本地运行模式深入理解,本篇文章将详细介绍在基于Windows与Linux两种开发环境下,MapReduce程序的3种集群运行方式。在通篇文章中,仍然以经典的WordCount程序为例进行说明,以提高文章的易读性,下面进入文章的正题。 (1)MapReduce程序的集群运行模式1—将工程打成jar包,上传到服务器,然后用hadoop命令hadoop jar xxx.
2016-07-05 20:57:48 5315 1
原创 Hadoop本地运行模式深入理解
Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,集群运行模式,相应概念如下: 1、独立模式即本地运行模式(standalone或local mode) 无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。 2、伪分布运行模式 伪分布:如果Hadoop对应的Java进程都运行
2016-07-04 16:35:05 15202 1
原创 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-
集群环境:hadoop2.4.1 问题描述: 在执行hadoop fs -ls / 时,显示:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin- ,从问题上可以看出,不能够加载本地库。 原因分析: 查看linux系统的的位数:[r
2016-07-02 16:40:46 910
原创 java.lang.NoSuchMethodException: MapReduce.WordCount$MyMapper.<init>()
今天在YARN平台上测试了一个程序–wordcount:package MapReduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import o
2016-07-02 09:51:02 3832
原创 Wrong FS: hdfs://hadoop20:9000/word.txt, expected: file:///---异常解决方案
今天搭建了一个hadoop2.0(yarn集群平台),首先在上面测试了一个FileSystem实例程序,代码如下:package IT0701;import java.io.IOException;import java.net.URISyntaxException;import org.apache.commons.compress.utils.IOUtils;import org.apach
2016-07-01 20:42:20 4196 1
转载 Resources are low on NN. Please add or free up more resources then turn off safe mode manually.
问题解决方案的转载网址: http://www.chinahadoop.cn/classroom/5/thread/189 http://jingyan.baidu.com/article/3aed632e198ae870108091b4.html
2016-07-01 16:23:37 7683
原创 SecureCRT远程连接Linux---终端中文字符出现乱码的解决方式
今天用SecureCRT远程连接linux时,发现终端中的中文字符总是出现乱码的现象,如下所示: 首先我先查看了一下LANG这个参数:[root@hadoop22 ~]# echo $LANGen_US.UTF_8可以看出LANG这个参数是正常的。 随后我又查看了一下/etc/sysconfig/i18n这个配置文件的内容:[root@hadoop22 sysconfig]# more i
2016-07-01 13:11:48 18412 4
原创 深入理解Java中的流---结合Hadoop进行详解
在JavaSe的基础课程当中,可以说流是一个非常重要的概念,并且在Hadoop中得到了广泛的应用,本篇博客将围绕流进行深入的详解。 (一)JavaSe中流的相关概念 1、流的定义 ①在Java当中,若一个类专门用于数据传输,则这个类称为流 ②流就是程序和设备之间嫁接以来的一根用于数据传输的管道,这个设备可以是本地硬盘,可以是内存条,也可以是网络所关联的另外一台计算机等等,其中不同管道上有不同
2016-06-27 21:43:50 4133
转载 CSDN-markdown编辑器语法——字体、字号与颜色
转载网址:http://blog.csdn.net/testcs_dn/article/details/45719357/
2016-06-26 08:46:33 668
原创 HDFS的Java Api-----FileSystem的用法详解(fileSystem|filesystem)
最近一段时间又在忙hadoop了,针对最近开发过程中遇到的问题总结一下: (1)HDFS命令 hadoop fs -rmr /* 的一个漏洞问题 实例如下: 解决方案:将HDFS的具体访问路径在命令行中写出: hadoop fs -rmr hdfs://hadoop20:9000/* (2) HDFS中block块的具体理解:我们都知道文件在HDFS中是以bl
2016-06-25 13:44:40 2088
原创 HDFS入门笔记------架构以及应用介绍
引言—HDFS的重要性: Hadoop的定义:适合大数据的分布式存储与计算的一个平台,其中大数据的分布式存储就是由HDFS来完成的,因此掌握好HDFS的相关概念与应用非常重要! 本篇博客将从以下几个方面讲述HDFS: 1、分布式文件系统与HDFS 2、HDFS的体系结构 3、HDFS—-NameNode相关概念 4、HDFS—-DataNode相关概念 5、HDFS—-block块相关
2016-06-14 08:50:02 4003
原创 Hive与Hbase关系整合
近期工作用到了Hive与Hbase的关系整合,虽然从网上参考了很多的资料,但是大多数讲的都不是很细,于是决定将这块知识点好好总结一下供大家分享。 本篇文章在具体介绍Hive与Hbase整合之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Hive与Hbase的整合在业务当中的必要性。 其中在数据存入hbase—>Hive对数据进行统计分析的这个步骤中就涉及到了Hive
2016-06-05 10:16:59 16694 5
转载 linux中crontab用法
转载网址:http://blog.chinaunix.net/uid-561779-id-166598.html
2016-06-02 20:02:41 1347
原创 Sqoop架构以及应用介绍
本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。 如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对Hbase中的数据进行统计与分析,分析之后将分析结果存入到Hive表中,然后通过Sqoop这个工具将我们的数据挖
2016-05-25 21:18:45 20111
大数据全套视频2018.zip
2020-05-02
BookmarkSidebar(书签侧边栏插件)v1.9.0Chrome版.rar.zip
2020-05-02
Hadoop 2.2 Windows下需要的 winutils.exe
2016-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人