自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Azkaban入门级应用

近日刚刚来到一家新公司入职,职位与之前的工作有些偏差,更专注于数据的分析和决策,对于自己来说有更好的发展方向,也特别感谢孔网领导对我的信任。话不多说接下来就把我自己的对Azkaban学习之后的入门技巧与各位小伙伴进行分享!那我们开始吧! Azkaban 是由Linkedin公司推出的一个批量工作流任务调度器。说到这相信大家就都理解了,Azkaban就是一个工作流调度...

2020-01-03 10:55:46 150 1

原创 Hive函数大全,归纳总结常用的都有

一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A 与表达式B相等,则为 TRUE;否则为 FALSE举例:hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式 A 为 NULL,或者表达式 B为...

2020-01-03 10:44:06 299

转载 Spark:在Spark集群中,集群的节点个数、RDD分区个数、​cpu内核个数三者与并行度的关系??

梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目关系系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,...

2019-08-06 10:13:13 630

原创 sqoop常用命令三 ---- import导入 与export 覆盖更新,常见问题总结

一.参数说明1.import/export通用选项 含义说明--connect <jdbc-uri> 指定JDBC连接字符串--connection-manager <class-name> 指定要使用的连接管理器类--driver <class-name> 指定要使用的JDBC驱动类--hadoop-mapred-home &lt...

2019-06-18 16:24:23 5174

转载 sqoop常用命令二(数据导出更新复制)

sqoop的导出工具是把HDFS上文件中的数据导出到mysql中mysql中的表现在在linux上创建一个文件,并把这个文件上传到hdfs上cat person.txt 7,no7,778,no8,88$ hadoop fs -mkdir person_export$ hadoop fs -put -f person.txt person_export$ hado...

2019-06-13 11:18:52 441

转载 sqoop常用命令一

这些内容是从sqoop的官网整理出来的,是1.4.3版本的Document,如果有错误,希望大家指正。 1.使用sqoop导入数据    sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST  2.账号密码 sqoop import --connect jdb...

2019-06-13 11:17:16 407

原创 02-Hive/Hadoop数据存储格式与avro文件创建hive表

Hive/Hadoop数据存储格式与avro文件创建hive表一.存储格式1.Hadoop 中的文件格式1>.SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API...

2019-05-05 19:09:58 1539

原创 01-window单机部署kafka

搭建环境:一.安装JDK1.8.0_1111.1下载jdk文件:http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html1.2配置环境变量:添加以下的环境变量(右键点击“我的电脑” -> "高级系统设置" -> "环境变量") JA...

2016-11-18 15:52:33 316

原创 01-hive优化总结经验

hive优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from A...

2016-10-31 10:03:58 345

转载 Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

一、数据情况分析1.1 数据情况回顾  该论坛数据有两部分:  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。  图1展示了该日志数据的记录格

2016-09-27 20:59:30 360

转载 Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

一、借助Hive进行统计1.1 准备工作:建立分区表  为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)hive>CREATE EXTERNAL

2016-09-27 20:56:15 458

转载 Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

一、项目背景与数据情况1.1 项目来源  本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。图1 项目来源网站-技术学习论坛  本次实践的目的就在于通过对该技术论坛的apache common日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。PS:开发该系统的目的是为了获取一些

2016-09-27 20:54:47 658

转载 Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗一、数据情况分析1.1 数据情况回顾  该论坛数据有两部分:  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2

2016-09-27 20:51:26 505

转载 电信业Hadoop应用分析

昨日,联通研究院处长王志军在第七届“开源中国 开源世界”高峰论坛上分享了Hadoop在电信行业大数据应用的经验。   随着国内3G网络的发展,或者移动通信网络的发展,中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。而目前中国联通遇到一个世纪问题:随着流量的增长,3G流量的争议也迅

2016-09-13 22:57:59 805

转载 Cloudera Manager及CDH安装

问题导读:1.安装需要做哪些准备?2.如何安装CM?3.如何通过CM安装CDH?4.CM及CDH安装的过程都包含什么?目 录1           准备工作........................................................................................................

2016-09-12 22:58:51 466

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除