2018年01月_a280966503

转载 Linux　nc 命令详解

netcat是网络工具中的瑞士军刀，它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向，你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。netcat所做的就是在两台电脑之间建立链接并返回两个数据流，在这之后所能做的事就看你的想像力了。你能建立一个服务器，传输文件，与朋友聊天，传输流媒体或者用它作为其它协议的独立客户端。下面是一些使用net

2018-01-30 13:31:40 522

转载 Sqoop import加载HBase过程中，遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:d

在执行hbase sqoop抽取的时候，遇到了一个错误，如下图：在执行程序的过程中，遇到权限问题很正常，也容易让人防不胜防，有问题就想办法解决，这个是关键。解决办法如下：第一步：su hdfs，进入hdfs。第二步：hadoop fs -ls ，瞅瞅user的权限。第三步：修改权限hadoop fs -chmod 777 /

2018-01-30 13:11:02 1619

转载如何杀掉当前正在执行的hadoop任务

列出当前hadoop正在执行的jobs:[[email protected] hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently runningJobId State StartTime UserName Priority SchedulingInfojob_20

2018-01-24 22:43:50 2454

原创 hive临时设置

set mapreduce.job.reduces =3 临时生效设置reduce数量

2018-01-17 20:36:06 651

原创 Hive的几种排序

1、order by 全局排序，相当于一个reduce，2、sort by 按每一个reduce内部排序，不是全局排序3、distribute by 类似于MRPartition,进行分区，一般要结合sort by使用4、cluster by 当distribute和sort字段相同时，就是cluster by

2018-01-17 20:35:46 584

转载 Kafka集群部署

Kafka集群部署 1）解压安装包[atguigu@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.0.tgz -C /opt/module/2）修改解压后的文件名称[atguigu@hadoop102 module]$ mvkafka_2.11-0.11.0.0/ kafka3）在/opt/module/kafka目录下创建lo

2018-01-12 13:04:47 320

转载 ALS推荐算法在Spark上的优化从50分钟到3分钟

从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要求是在15分钟左右, 远远达不到实时推荐的要求, 因此, 我们与业务侧一起对Spark应用进行了优化.另外提一下, 该文最好与之前我写的另一篇blog 一起看, 因为一些细节我不会再在该文中描述

2018-01-10 22:50:33 4569 5

转载 Spark 性能相关参数配置详解

每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行的task，stage内部是不能出现shuffle的，因为shuffle的就像篱笆一样阻止了并行task的运行，遇到shuffle就意味着到了stage的边界。CPU的core数量，每个executor可以占用一个或多个co

2018-01-10 22:03:12 457

转载关于Spark运行流式计算程序中跑一段时间出现GC overhead limit exceeded

最近在升级一个框架的时候，发现某个流式计算程序每隔一定的时间就会出现GC overhead limit exceeded的错误问题。这个问题肯定是内存不够，但是初始设置的内存是够的啊，于是进行各种内存优化，如将变量定义在循环体外等控制，但是发现只是将这个间隔时间往后推了一下而已。还是没有找到症结所在。后来再分析了下，可能是哪些变量占了内存

2018-01-10 21:52:10 1150 1

转载 SPARK 中 DriverMemory和ExecutorMemory

spark中，不论spark-shell还是spark-submit，都可以设置memory大小，但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多少内存，而是管理多少内存。换言之就是为当前应用分配了多少内存。executor me

2018-01-10 19:05:02 17188 3

转载使用Sqoop job工具同步数据

我们使用的是Sqoop-1.4.4，在进行关系型数据库与Hadoop/Hive数据同步的时候，如果使用--incremental选项，如使用append模式，我们需要记录一个--last-value的值，如果每次执行同步脚本的时候，都需要从日志中解析出来这个--last-value的值，然后重新设置脚本参数，才能正确同步，保证从关系型数据库同步到Hadoop/Hive的数据不发生重复的问题。而

2018-01-10 15:58:52 603

转载 sqoop操作

* Sqoop一、SQL-TO-HADOOP二、配置：1、开启Zookeeper2、开启集群服务3、配置文件：** sqoop-env.sh#export HADOOP_COMMON_HOME=export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#Set path to whe

2018-01-10 14:28:56 246

转载 hive基础(一)

* Hive创建表的方式1、使用create命令创建一个新表例如：create table if not exists db_web_data.track_log(字段) partitioned by (date string,hour string) row format delimited fields terminated by '\t';2、把一张表的某些字段抽取出来，

2018-01-10 14:27:34 188

转载 Scala 中Array,List,Tuple的区别

Scala中的三种集合类型包括:Array,List,Tuple．那么到底这三种有哪些异同呢？说实话，我之前一直没弄明白，所以今天特意花了点时间学习了一下．　　　　相同点:　　　　　1.长度都是固定的，不可变长　　　　　２.早期的Scala版本,Array、List都不能混合类型，只有Tuple可以,2.8版本以后,3者的元素都可以混合不同的类型（转化为Any类型）　　　　

2018-01-10 13:25:14 756

转载 Spark函数讲解：cartesian

从名字就可以看出这是笛卡儿的意思，就是对给的两个RDD进行笛卡儿计算。官方文档说明：Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of elements (a, b) where a is in `this` and b is in `other`.

2018-01-10 12:58:47 619

转载 hive udf开发超详细手把手教程

关于hive的udf介绍，就不多啰嗦了。网上的教程一抓一大把，也可以上apache的官网去查阅相关资料，我就省了翻译的时间了。重点给大家带来干货，手把手教会你怎样开发一个udf函数，已经如何部署到服务器上的hive环境中运行。用最简单的话来说，就是教大家怎么让自己开发的udf跑起来。。。项目需求做数据挖掘项目中，常见的需求之一就是分析节假日订单跟平时订单的区别。于是，我们需要统计节

2018-01-08 22:42:25 448

原创 hive操作udf

1.编写大写字符串转小写package dyy.hive;import org.apache.hadoop.io.Text;public class ToLowerCase extends UDF { public Text evaluate(Text str){ if(str == null) return null; if(str != n

2018-01-08 22:23:04 174

转载【Spark】RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过Blo

2018-01-05 17:05:17 383

转载 spark中的Action

Action动作含义reduce(func)通过func函数聚集RDD中的所有元素，这个功能必须是课交换且可并联的collect()在驱动程序中，以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第

2018-01-05 17:04:14 368

原创 spark中的Transformation

TransformationRDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。常用的Transformation：转换含义map(fun

2018-01-05 17:03:23 219

转载 MapReduce框架详解

Mapreduce初析Mapreduce是一个计算框架，既然是做计算的框架，那么表现形式就是有个输入（input），mapreduce操作这个输入（input），通过本身定义好的计算模型，得到一个输出（output），这个输出就是我们所需要的结果。我们要学习的就是这个计算模型的运行规则。在运行一个mapreduce计算任务时候，任务过程被分为两个阶段：map阶段和reduce阶段，

2018-01-05 16:56:18 944

转载 hdfs架构原理

1、HDFS 是做什么的　　HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的

2018-01-05 15:26:14 635

原创 apache安装和启动

sudo yum install httpdsudo /etc/init.d/httpd start

2018-01-05 11:44:11 980

原创 spark启动

./sbin/start-master.sh -master启动

2018-01-05 11:43:11 247

转载数据分析利器之hive优化十大原则

hive之于数据民工，就如同锄头之于农民伯伯。hive用的好，才能从地里（数据库）里挖出更多的数据来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。一. 表连

2018-01-03 19:31:31 128

原创 hadoop面试

1、一个datanode 宕机,怎么一个流程恢复将datanode数据删除，重新当成新节点加入即可。

2018-01-03 18:40:34 289

转载 Sqoop导入关系数据库到Hive

Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例，实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里

2018-01-03 15:37:49 271

转载 Hive中日期处理

1、日期函数UNIX时间戳转日期函数：from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, string format])string转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式hive (temp)> select from_unixtime(

2018-01-03 14:57:26 5984

转载 Hive统计新增,日活和留存率

用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用

2018-01-03 13:40:29 1777

原创用户周流失率

select count(1) from ( select distinct playerId from log_login l1 where week(now())-1=week(loginTime) and exists(select 1 from log_login l2 where l1.playerId = l2.playerId and week(NOW())=week(logi

2018-01-03 13:32:52 834

转载 Hadoop运维之NameNode重启

1.备份主节点的current 目录2.在second namenode 上执行./Hadoop-daemon.sh start namenode -checkpoint3.等待30-40分钟，待checkpoint 完成后。到主节点上的current文件check fsimage 的修改时间，看是否已经同步成功。然后执行./hadoop-daemon.sh stop n

2018-01-03 12:58:00 4859

原创 hive注意事项

1、生产环境中为什么建议使用外部表？1、因为外部表不会加载数据到hive，减少数据传输、数据还能共享。2、hive不会修改数据，所以无需担心数据的损坏1、删除表时，只删除表结构、不删除数据。

2018-01-03 12:55:45 320

原创 hadoop命令

hadoop dfsadmin -report -查看hadoop集群每台服务器运行状况

2018-01-03 12:51:44 163

原创 hadoop知识点

hdfs有namenode、secondraynamenode、datanode组成。为n+1模式namenode负责管理datanode和记录元数据secondraynamenode负责合并日志datanode负责存储数据

2018-01-03 12:43:12 506

转载 set hive.fetch.task.conversion含义

我们在执行hive代码的时候，一条简单的命令大部分都会转换成为mr代码在后台执行，但是有时候我们仅仅只是想获取一部分数据而已，仅仅是获取数据，还需要转化成为mr去执行吗？那个也太浪费时间和内存啦，所以有一个hive的配置如下图所示：我们会发现这个属性所对应着两种模式，minimal和more。在minimal下，我们执行select * ，lim

2018-01-02 22:10:13 5955

转载 hive-site.xml参数

2 3 <!-- 4 Licensed to the Apache Software Foundation (ASF) under one or more 5 contributor license agreements. See the NOTICE file distributed with 6 this work for additional i

2018-01-02 22:03:23 2641

转载 [Hive]Hive调优：让任务并行执行

业务背景extract_trfc_page_kpi的hive sql如下：set mapred.job.queue.name=pms;set hive.exec.reducers.max=8;set mapred.reduce.tasks=8;set mapred.job.name=extract_trfc_page_kpi;insert overwrite table pm

2018-01-02 21:53:01 789

转载关于Hive优化的四种方法总结

问题导读：1、Hive整体架构优化点有哪些？2、如何在MR阶段进行优化？3、Hive在SQL中如何优化？4、Hive框架平台中如何优化？一、整体架构优化现在hive的整体框架如下，计算引擎不仅仅支持Map/Reduce，并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。整体架构优化点：1、根据不同业务需求

2018-01-01 21:37:53 303

原创 hive资料

hive 默认的字段分隔符为\001

2018-01-01 19:51:04 181

apache-tomcat-7.0.22-windows-x86.zip

空空如也