Eylun-CSDN博客

原创 Azkaban入门级应用

近日刚刚来到一家新公司入职，职位与之前的工作有些偏差，更专注于数据的分析和决策，对于自己来说有更好的发展方向，也特别感谢孔网领导对我的信任。话不多说接下来就把我自己的对Azkaban学习之后的入门技巧与各位小伙伴进行分享！那我们开始吧！ Azkaban 是由Linkedin公司推出的一个批量工作流任务调度器。说到这相信大家就都理解了，Azkaban就是一个工作流调度...

2020-01-03 10:55:46 150 1

原创 Hive函数大全，归纳总结常用的都有

一、关系运算：1. 等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A 与表达式B相等，则为 TRUE；否则为 FALSE举例：hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式 A 为 NULL，或者表达式 B为...

2020-01-03 10:44:06 299

转载 Spark：在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系？？

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目关系系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，...

2019-08-06 10:13:13 630

原创 sqoop常用命令三 ---- import导入与export 覆盖更新，常见问题总结

一.参数说明1.import/export通用选项含义说明--connect <jdbc-uri> 指定JDBC连接字符串--connection-manager <class-name> 指定要使用的连接管理器类--driver <class-name> 指定要使用的JDBC驱动类--hadoop-mapred-home &lt...

2019-06-18 16:24:23 5174

转载 sqoop常用命令二（数据导出更新复制）

sqoop的导出工具是把HDFS上文件中的数据导出到mysql中mysql中的表现在在linux上创建一个文件，并把这个文件上传到hdfs上cat person.txt 7,no7,778,no8,88$ hadoop fs -mkdir person_export$ hadoop fs -put -f person.txt person_export$ hado...

2019-06-13 11:18:52 441

转载 sqoop常用命令一

这些内容是从sqoop的官网整理出来的，是1.4.3版本的Document，如果有错误，希望大家指正。 1.使用sqoop导入数据　　　　sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST　　2.账号密码 sqoop import --connect jdb...

2019-06-13 11:17:16 407

原创 02-Hive/Hadoop数据存储格式与avro文件创建hive表

Hive/Hadoop数据存储格式与avro文件创建hive表一.存储格式1.Hadoop 中的文件格式1>.SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API...

2019-05-05 19:09:58 1539

原创 01-window单机部署kafka

搭建环境：一.安装JDK1.8.0_1111.1下载jdk文件：http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html1.2配置环境变量：添加以下的环境变量（右键点击“我的电脑” -> "高级系统设置" -> "环境变量"） JA...

2016-11-18 15:52:33 316

原创 01-hive优化总结经验

hive优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from A...

2016-10-31 10:03:58 345

转载 Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

一、数据情况分析1.1 数据情况回顾　　该论坛数据有两部分：　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。　　（2）自2013-05-30起，每天生成一个数据文件，约150MB左右。这也说明，从2013-05-30之后，日志文件不再是在一个文件里边。　　图1展示了该日志数据的记录格

2016-09-27 20:59:30 360

转载 Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

一、借助Hive进行统计1.1 准备工作：建立分区表　　为了能够借助Hive进行统计分析，首先我们需要将清洗后的数据存入Hive中，那么我们需要先建立一张表。这里我们选择分区表，以日期作为分区的指标，建表语句如下：（这里关键之处就在于确定映射的HDFS位置，我这里是/project/techbbs/cleaned即清洗后的数据存放的位置）hive>CREATE EXTERNAL

2016-09-27 20:56:15 458

转载 Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍

一、项目背景与数据情况1.1 项目来源　　本次要实践的数据日志来源于国内某技术学习论坛，该论坛由某培训机构主办，汇聚了众多技术学习者，每天都有人发帖、回帖，如图1所示。图1 项目来源网站-技术学习论坛　　本次实践的目的就在于通过对该技术论坛的apache common日志进行分析，计算该论坛的一些关键指标，供运营者进行决策时参考。PS：开发该系统的目的是为了获取一些

2016-09-27 20:54:47 658

转载 Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗一、数据情况分析1.1 数据情况回顾　　该论坛数据有两部分：　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。　　（2）自2013-05-30起，每天生成一个数据文件，约150MB左右。这也说明，从2

2016-09-27 20:51:26 505

转载电信业Hadoop应用分析

昨日，联通研究院处长王志军在第七届“开源中国开源世界”高峰论坛上分享了Hadoop在电信行业大数据应用的经验。　随着国内3G网络的发展，或者移动通信网络的发展，中国联通目前运营着世界上最大的CDMA网络，流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大，中国联通3G用户流量使用情况也是非常可观的。而目前中国联通遇到一个世纪问题：随着流量的增长，3G流量的争议也迅

2016-09-13 22:57:59 805

转载 Cloudera Manager及CDH安装

问题导读：1.安装需要做哪些准备？2.如何安装CM？3.如何通过CM安装CDH？4.CM及CDH安装的过程都包含什么？目录1 准备工作........................................................................................................

2016-09-12 22:58:51 466

qq_35281775的博客

原创 Azkaban入门级应用

原创 Hive函数大全，归纳总结常用的都有

转载 Spark：在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系？？

原创 sqoop常用命令三 ---- import导入与export 覆盖更新，常见问题总结

转载 sqoop常用命令二（数据导出更新复制）

转载 sqoop常用命令一

原创 02-Hive/Hadoop数据存储格式与avro文件创建hive表

原创 01-window单机部署kafka

原创 01-hive优化总结经验

转载 Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

转载 Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

转载 Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍

转载 Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

转载电信业Hadoop应用分析

转载 Cloudera Manager及CDH安装

空空如也

空空如也