- 博客(39)
- 资源 (1)
- 收藏
- 关注
转载 Linux nc 命令详解
netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向,你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。netcat所做的就是在两台电脑之间建立链接并返回两个数据流,在这之后所能做的事就看你的想像力了。你能建立一个服务器,传输文件,与朋友聊天,传输流媒体或者用它作为其它协议的独立客户端。下面是一些使用net
2018-01-30 13:31:40 522
转载 Sqoop import加载HBase过程中,遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:d
在执行hbase sqoop抽取的时候,遇到了一个错误,如下图: 在执行程序的过程中,遇到权限问题很正常,也容易让人防不胜防,有问题就想办法解决,这个是关键。解决办法如下:第一步:su hdfs,进入hdfs。第二步:hadoop fs -ls ,瞅瞅user的权限。第三步:修改权限hadoop fs -chmod 777 /
2018-01-30 13:11:02 1619
转载 如何杀掉当前正在执行的hadoop任务
列出当前hadoop正在执行的jobs:[[email protected] hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently runningJobId State StartTime UserName Priority SchedulingInfojob_20
2018-01-24 22:43:50 2454
原创 Hive的几种排序
1、order by 全局排序,相当于一个reduce,2、sort by 按每一个reduce内部排序,不是全局排序3、distribute by 类似于MRPartition,进行分区,一般要结合sort by使用4、cluster by 当distribute和sort字段相同时,就是cluster by
2018-01-17 20:35:46 584
转载 Kafka集群部署
Kafka集群部署 1)解压安装包[atguigu@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.0.tgz -C /opt/module/2)修改解压后的文件名称[atguigu@hadoop102 module]$ mvkafka_2.11-0.11.0.0/ kafka3)在/opt/module/kafka目录下创建lo
2018-01-12 13:04:47 320
转载 ALS推荐算法在Spark上的优化从50分钟到3分钟
从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要求是在15分钟左右, 远远达不到实时推荐的要求, 因此, 我们与业务侧一起对Spark应用进行了优化.另外提一下, 该文最好与之前我写的另一篇blog 一起看, 因为一些细节我不会再在该文中描述
2018-01-10 22:50:33 4569 5
转载 Spark 性能相关参数配置详解
每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运行,遇到shuffle就意味着到了stage的边界。CPU的core数量,每个executor可以占用一个或多个co
2018-01-10 22:03:12 457
转载 关于Spark运行流式计算程序中跑一段时间出现GC overhead limit exceeded
最近在升级一个框架的时候,发现某个流式计算程序每隔一定的时间就会出现GC overhead limit exceeded的错误问题。这个问题肯定是内存不够,但是初始设置的内存是够的啊,于是进行各种内存优化,如将变量定义在循环体外等控制,但是发现只是将这个间隔时间往后推了一下而已。还是没有找到症结所在。后来再分析了下,可能是哪些变量占了内存
2018-01-10 21:52:10 1150 1
转载 SPARK 中 DriverMemory和ExecutorMemory
spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多少内存,而是管理多少内存。换言之就是为当前应用分配了多少内存。executor me
2018-01-10 19:05:02 17188 3
转载 使用Sqoop job工具同步数据
我们使用的是Sqoop-1.4.4,在进行关系型数据库与Hadoop/Hive数据同步的时候,如果使用--incremental选项,如使用append模式,我们需要记录一个--last-value的值,如果每次执行同步脚本的时候,都需要从日志中解析出来这个--last-value的值,然后重新设置脚本参数,才能正确同步,保证从关系型数据库同步到Hadoop/Hive的数据不发生重复的问题。而
2018-01-10 15:58:52 603
转载 sqoop操作
* Sqoop一、SQL-TO-HADOOP二、配置:1、开启Zookeeper2、开启集群服务3、配置文件:** sqoop-env.sh#export HADOOP_COMMON_HOME=export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#Set path to whe
2018-01-10 14:28:56 246
转载 hive基础(一)
* Hive创建表的方式1、使用create命令创建一个新表例如:create table if not exists db_web_data.track_log(字段) partitioned by (date string,hour string) row format delimited fields terminated by '\t';2、把一张表的某些字段抽取出来,
2018-01-10 14:27:34 188
转载 Scala 中Array,List,Tuple的区别
Scala中的三种集合类型包括:Array,List,Tuple.那么到底这三种有哪些异同呢?说实话,我之前一直没弄明白,所以今天特意花了点时间学习了一下. 相同点: 1.长度都是固定的,不可变长 2.早期的Scala版本,Array、List都不能混合类型,只有Tuple可以,2.8版本以后,3者的元素都可以混合不同的类型(转化为Any类型)
2018-01-10 13:25:14 756
转载 Spark函数讲解:cartesian
从名字就可以看出这是笛卡儿的意思,就是对给的两个RDD进行笛卡儿计算。官方文档说明:Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of elements (a, b) where a is in `this` and b is in `other`.
2018-01-10 12:58:47 619
转载 hive udf开发超详细手把手教程
关于hive的udf介绍,就不多啰嗦了。网上的教程一抓一大把,也可以上apache的官网去查阅相关资料,我就省了翻译的时间了。重点给大家带来干货,手把手教会你怎样开发一个udf函数,已经如何部署到服务器上的hive环境中运行。用最简单的话来说,就是教大家怎么让自己开发的udf跑起来。。。项目需求做数据挖掘项目中,常见的需求之一就是分析节假日订单跟平时订单的区别。于是,我们需要统计节
2018-01-08 22:42:25 448
原创 hive操作udf
1.编写大写字符串转小写package dyy.hive;import org.apache.hadoop.io.Text;public class ToLowerCase extends UDF { public Text evaluate(Text str){ if(str == null) return null; if(str != n
2018-01-08 22:23:04 174
转载 【Spark】RDD操作详解1——Transformation和Actions概况
Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过Blo
2018-01-05 17:05:17 383
转载 spark中的Action
Action动作含义reduce(func)通过func函数聚集RDD中的所有元素,这个功能必须是课交换且可并联的collect()在驱动程序中,以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第
2018-01-05 17:04:14 368
原创 spark中的Transformation
TransformationRDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。 常用的Transformation:转换含义map(fun
2018-01-05 17:03:23 219
转载 MapReduce框架详解
Mapreduce初析Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。我们要学习的就是这个计算模型的运行规则。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,
2018-01-05 16:56:18 944
转载 hdfs架构原理
1、HDFS 是做什么的 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的
2018-01-05 15:26:14 635
转载 数据分析利器之hive优化十大原则
hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。 一. 表连
2018-01-03 19:31:31 128
转载 Sqoop导入关系数据库到Hive
Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里
2018-01-03 15:37:49 271
转载 Hive中日期处理
1、日期函数UNIX时间戳转日期函数:from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, string format])string转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式hive (temp)> select from_unixtime(
2018-01-03 14:57:26 5984
转载 Hive统计新增,日活和留存率
用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用
2018-01-03 13:40:29 1777
原创 用户周流失率
select count(1) from ( select distinct playerId from log_login l1 where week(now())-1=week(loginTime) and exists(select 1 from log_login l2 where l1.playerId = l2.playerId and week(NOW())=week(logi
2018-01-03 13:32:52 834
转载 Hadoop运维之NameNode重启
1.备份主节点 的current 目录2.在second namenode 上执行./Hadoop-daemon.sh start namenode -checkpoint3.等待30-40分钟,待checkpoint 完成后。到主节点上的current文件check fsimage 的修改时间,看是否已经同步成功。然后执行./hadoop-daemon.sh stop n
2018-01-03 12:58:00 4859
原创 hive注意事项
1、生产环境中为什么建议使用外部表?1、因为外部表不会加载数据到hive,减少数据传输、数据还能共享。2、hive不会修改数据,所以无需担心数据的损坏1、 删除表时,只删除表结构、不删除数据。
2018-01-03 12:55:45 320
原创 hadoop知识点
hdfs有namenode、secondraynamenode、datanode组成。为n+1模式namenode负责管理datanode和记录元数据secondraynamenode负责合并日志datanode负责存储数据
2018-01-03 12:43:12 506
转载 set hive.fetch.task.conversion含义
我们在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下图所示: 我们会发现这个属性所对应着两种模式,minimal和more。 在minimal下,我们执行select * ,lim
2018-01-02 22:10:13 5955
转载 hive-site.xml参数
2 3 <!-- 4 Licensed to the Apache Software Foundation (ASF) under one or more 5 contributor license agreements. See the NOTICE file distributed with 6 this work for additional i
2018-01-02 22:03:23 2641
转载 [Hive]Hive调优:让任务并行执行
业务背景extract_trfc_page_kpi的hive sql如下:set mapred.job.queue.name=pms;set hive.exec.reducers.max=8;set mapred.reduce.tasks=8;set mapred.job.name=extract_trfc_page_kpi;insert overwrite table pm
2018-01-02 21:53:01 789
转载 关于Hive优化的四种方法总结
问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:1、根据不同业务需求
2018-01-01 21:37:53 303
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人