自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (1)
  • 收藏
  • 关注

转载 Linux nc 命令详解

netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向,你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。netcat所做的就是在两台电脑之间建立链接并返回两个数据流,在这之后所能做的事就看你的想像力了。你能建立一个服务器,传输文件,与朋友聊天,传输流媒体或者用它作为其它协议的独立客户端。下面是一些使用net

2018-01-30 13:31:40 522

转载 Sqoop import加载HBase过程中,遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:d

在执行hbase sqoop抽取的时候,遇到了一个错误,如下图: 在执行程序的过程中,遇到权限问题很正常,也容易让人防不胜防,有问题就想办法解决,这个是关键。解决办法如下:第一步:su hdfs,进入hdfs。第二步:hadoop fs -ls ,瞅瞅user的权限。第三步:修改权限hadoop fs -chmod 777 /

2018-01-30 13:11:02 1619

转载 如何杀掉当前正在执行的hadoop任务

列出当前hadoop正在执行的jobs:[[email protected] hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently runningJobId   State   StartTime       UserName        Priority        SchedulingInfojob_20

2018-01-24 22:43:50 2454

原创 hive临时设置

set mapreduce.job.reduces =3 临时生效设置reduce数量

2018-01-17 20:36:06 651

原创 Hive的几种排序

1、order by 全局排序,相当于一个reduce,2、sort by 按每一个reduce内部排序,不是全局排序3、distribute by 类似于MRPartition,进行分区,一般要结合sort by使用4、cluster by 当distribute和sort字段相同时,就是cluster by

2018-01-17 20:35:46 584

转载 Kafka集群部署

Kafka集群部署 1)解压安装包[atguigu@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.0.tgz -C /opt/module/2)修改解压后的文件名称[atguigu@hadoop102 module]$ mvkafka_2.11-0.11.0.0/ kafka3)在/opt/module/kafka目录下创建lo

2018-01-12 13:04:47 320

转载 ALS推荐算法在Spark上的优化从50分钟到3分钟

从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要求是在15分钟左右, 远远达不到实时推荐的要求, 因此, 我们与业务侧一起对Spark应用进行了优化.另外提一下, 该文最好与之前我写的另一篇blog  一起看, 因为一些细节我不会再在该文中描述

2018-01-10 22:50:33 4569 5

转载 Spark 性能相关参数配置详解

每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运行,遇到shuffle就意味着到了stage的边界。CPU的core数量,每个executor可以占用一个或多个co

2018-01-10 22:03:12 457

转载 关于Spark运行流式计算程序中跑一段时间出现GC overhead limit exceeded

最近在升级一个框架的时候,发现某个流式计算程序每隔一定的时间就会出现GC overhead limit exceeded的错误问题。这个问题肯定是内存不够,但是初始设置的内存是够的啊,于是进行各种内存优化,如将变量定义在循环体外等控制,但是发现只是将这个间隔时间往后推了一下而已。还是没有找到症结所在。后来再分析了下,可能是哪些变量占了内存

2018-01-10 21:52:10 1150 1

转载 SPARK 中 DriverMemory和ExecutorMemory

spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多少内存,而是管理多少内存。换言之就是为当前应用分配了多少内存。executor me

2018-01-10 19:05:02 17188 3

转载 使用Sqoop job工具同步数据

我们使用的是Sqoop-1.4.4,在进行关系型数据库与Hadoop/Hive数据同步的时候,如果使用--incremental选项,如使用append模式,我们需要记录一个--last-value的值,如果每次执行同步脚本的时候,都需要从日志中解析出来这个--last-value的值,然后重新设置脚本参数,才能正确同步,保证从关系型数据库同步到Hadoop/Hive的数据不发生重复的问题。而

2018-01-10 15:58:52 603

转载 sqoop操作

* Sqoop一、SQL-TO-HADOOP二、配置:1、开启Zookeeper2、开启集群服务3、配置文件:** sqoop-env.sh#export HADOOP_COMMON_HOME=export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#Set path to whe

2018-01-10 14:28:56 246

转载 hive基础(一)

* Hive创建表的方式1、使用create命令创建一个新表例如:create table if not exists db_web_data.track_log(字段) partitioned by (date string,hour string) row format delimited fields terminated by '\t';2、把一张表的某些字段抽取出来,

2018-01-10 14:27:34 188

转载 Scala 中Array,List,Tuple的区别

Scala中的三种集合类型包括:Array,List,Tuple.那么到底这三种有哪些异同呢?说实话,我之前一直没弄明白,所以今天特意花了点时间学习了一下.    相同点:     1.长度都是固定的,不可变长     2.早期的Scala版本,Array、List都不能混合类型,只有Tuple可以,2.8版本以后,3者的元素都可以混合不同的类型(转化为Any类型)    

2018-01-10 13:25:14 756

转载 Spark函数讲解:cartesian

从名字就可以看出这是笛卡儿的意思,就是对给的两个RDD进行笛卡儿计算。官方文档说明:Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of elements (a, b) where a is in `this` and b is in `other`.

2018-01-10 12:58:47 619

转载 hive udf开发超详细手把手教程

关于hive的udf介绍,就不多啰嗦了。网上的教程一抓一大把,也可以上apache的官网去查阅相关资料,我就省了翻译的时间了。重点给大家带来干货,手把手教会你怎样开发一个udf函数,已经如何部署到服务器上的hive环境中运行。用最简单的话来说,就是教大家怎么让自己开发的udf跑起来。。。项目需求做数据挖掘项目中,常见的需求之一就是分析节假日订单跟平时订单的区别。于是,我们需要统计节

2018-01-08 22:42:25 448

原创 hive操作udf

1.编写大写字符串转小写package dyy.hive;import org.apache.hadoop.io.Text;public class ToLowerCase extends UDF { public Text evaluate(Text str){ if(str == null) return null; if(str != n

2018-01-08 22:23:04 174

转载 【Spark】RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过Blo

2018-01-05 17:05:17 383

转载 spark中的Action

Action动作含义reduce(func)通过func函数聚集RDD中的所有元素,这个功能必须是课交换且可并联的collect()在驱动程序中,以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第

2018-01-05 17:04:14 368

原创 spark中的Transformation

TransformationRDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。 常用的Transformation:转换含义map(fun

2018-01-05 17:03:23 219

转载 MapReduce框架详解

Mapreduce初析Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。我们要学习的就是这个计算模型的运行规则。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,

2018-01-05 16:56:18 944

转载 hdfs架构原理

1、HDFS 是做什么的  HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的

2018-01-05 15:26:14 635

原创 apache安装和启动

sudo yum install httpdsudo /etc/init.d/httpd start

2018-01-05 11:44:11 980

原创 spark启动

./sbin/start-master.sh -master启动

2018-01-05 11:43:11 247

转载 数据分析利器之hive优化十大原则

hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。 一. 表连

2018-01-03 19:31:31 128

原创 hadoop面试

1、一个datanode 宕机,怎么一个流程恢复将datanode数据删除,重新当成新节点加入即可。

2018-01-03 18:40:34 289

转载 Sqoop导入关系数据库到Hive

Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里

2018-01-03 15:37:49 271

转载 Hive中日期处理

1、日期函数UNIX时间戳转日期函数:from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, string format])string转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式hive (temp)> select from_unixtime(

2018-01-03 14:57:26 5984

转载 Hive统计新增,日活和留存率

用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用

2018-01-03 13:40:29 1777

原创 用户周流失率

select count(1) from ( select distinct playerId from log_login l1 where week(now())-1=week(loginTime) and  exists(select 1 from log_login l2 where l1.playerId = l2.playerId and week(NOW())=week(logi

2018-01-03 13:32:52 834

转载 Hadoop运维之NameNode重启

1.备份主节点 的current 目录2.在second namenode 上执行./Hadoop-daemon.sh start namenode -checkpoint3.等待30-40分钟,待checkpoint 完成后。到主节点上的current文件check fsimage 的修改时间,看是否已经同步成功。然后执行./hadoop-daemon.sh stop n

2018-01-03 12:58:00 4859

原创 hive注意事项

1、生产环境中为什么建议使用外部表?1、因为外部表不会加载数据到hive,减少数据传输、数据还能共享。2、hive不会修改数据,所以无需担心数据的损坏1、  删除表时,只删除表结构、不删除数据。

2018-01-03 12:55:45 320

原创 hadoop命令

hadoop dfsadmin -report -查看hadoop集群每台服务器运行状况

2018-01-03 12:51:44 163

原创 hadoop知识点

hdfs有namenode、secondraynamenode、datanode组成。为n+1模式namenode负责管理datanode和记录元数据secondraynamenode负责合并日志datanode负责存储数据

2018-01-03 12:43:12 506

转载 set hive.fetch.task.conversion含义

我们在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下图所示:        我们会发现这个属性所对应着两种模式,minimal和more。      在minimal下,我们执行select * ,lim

2018-01-02 22:10:13 5955

转载 hive-site.xml参数

2 3 <!-- 4 Licensed to the Apache Software Foundation (ASF) under one or more 5 contributor license agreements. See the NOTICE file distributed with 6 this work for additional i

2018-01-02 22:03:23 2641

转载 [Hive]Hive调优:让任务并行执行

业务背景extract_trfc_page_kpi的hive sql如下:set mapred.job.queue.name=pms;set hive.exec.reducers.max=8;set mapred.reduce.tasks=8;set mapred.job.name=extract_trfc_page_kpi;insert overwrite table pm

2018-01-02 21:53:01 789

转载 关于Hive优化的四种方法总结

问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:1、根据不同业务需求

2018-01-01 21:37:53 303

原创 hive资料

hive 默认的字段分隔符为\001

2018-01-01 19:51:04 181

apache-tomcat-7.0.22-windows-x86.zip

tomcat服务器apache-tomcat-7.0.22-windows-x86.zip

2013-02-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除