大数据
文章平均质量分 89
魅影猎鹰
码农
展开
-
日常使用过程中易出错的 Hive Sql 合集
结果是错误的,把所有的电器类型都查询出来了,原因就是 and 优先级高于 or,上面的sql语句实际执行的是,先找出 classify = '家具' and price>100 的,然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。原创 2022-09-27 13:03:06 · 235 阅读 · 1 评论 -
Hive企业级优化
当然,有时候空值的数据又不一定是异常数据,还是需要保留的,但是空key过多都分配到一个reducer去了,这样执行起来就算不内存溢出也会发生数据倾斜情况,数据倾斜的话对集群资源的利用率来看的话是极其不利的,我们可以通过把空key虚拟成随机数,但要保证不是同一个空key,从而降低数据倾斜概率,虽然这样在对关联键做处理反而会总体增长执行时间,但却减轻了reducer负担。做hive优化的时候,涉及到参数调优时要慎重,比如把内存都申请抢占满了,避免因为你自己的任务调优了但影响到整个集群其他任务的资源分配,原创 2022-09-14 10:41:26 · 363 阅读 · 0 评论 -
Hive 高频考点讲解
1 HiveHive 是 FaceBook 开源的一款基于 Hadoop 数据仓库工具,它可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。1.1 Hive 优缺点1.1.1 优点 操作接口原创 2021-05-19 18:41:00 · 368 阅读 · 5 评论 -
sqoop job 实现自动增量导入
目录一、测试环境 1、MySQL表结构 2、hive表结构 二、普通增量导入 三、sqoop job增量导入 1、sqoop job 参数 2、查看已经存在的job 5、运行job并验证 回到顶部一、测试环境1、MySQL表结构mysql> show create table autoextend\GCREATE TABLE `autoextend` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, ...原创 2021-02-02 21:05:24 · 515 阅读 · 1 评论 -
Hive性能调优指南
在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。但是在资源有限的情况下,我们需要关注Hive的性能调优,从而方便数据的快速产出。同时,关于Hive的性能调优,也是面试中比较常见的问题,因此掌握Hive性能调优的一些方法,不仅能够在工作中提升效率而且还可以在面试中脱颖而出。本文会通过四个方面介绍Hive性能调优,主要包括:√性能调优的工具√设计优化√数据存储优化√作业优化性能调优的工具HQL提供了两个查看查原创 2020-10-19 19:36:47 · 954 阅读 · 1 评论 -
sql常用语句整理(包括增删改查),适合小白使用
一、插入(复制)表数据1、INSERT INTO 语句(1)插入新的一行数据[sql] view plain copyINSERT INTO Persons VALUES ('Gates', 'Bill', 'Xuanwumen 10', 'Beijing'); (2)在指定的列中插入数据[sql] view plain copyINSERT INTO Persons (LastName, ...原创 2018-05-29 15:59:44 · 41864 阅读 · 2 评论 -
大数据项目的一般测试方法
一.功能性测试 大数据功能主要涉及系统实现面向大数据分析应用的POSIX API,包括文件读取与访问控制,元数据操作,锁操作等功能;大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点;功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。 ...原创 2018-05-08 09:14:02 · 15819 阅读 · 5 评论 -
用阿里云轻松搞定日志实时分析及监控大屏
通过最佳实践帮助您实现上述案例效果Step1:数据准备数据格式如下:$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];主要字段说明如下:字段名称字段说明$remote_add...原创 2018-05-11 09:12:38 · 9938 阅读 · 2 评论 -
关系型和非关系型数据库的区别?
当前主流的关系型数据库有Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL等。非关系型数据库有 NoSql、Cloudant。nosql和关系型数据库比较?优点:1)成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。2)查询速度:nosql数据库将数据存储于缓...原创 2018-05-10 15:01:57 · 1912 阅读 · 0 评论 -
sql50道题及答案详解
创建表语句 create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电' ...原创 2018-11-17 20:36:02 · 1287 阅读 · 0 评论 -
使用Hive处理服务器导入到OSS的日志数据
假设这样一个场景,用户有许多的机器(ECS或者自有机房的都可以),每天产生非常多的日志,记录了用户的访问的一些信息,比如userId,访问的页面地址,访问的时间,访问Ip等等。我们对这些数据进行一个离线分析,每天分析一次,计算网站的各个页面的UV、PV,并观察一下是否有作弊的情况:如多个不同的账号来自于同一个IP。并能将最终的这个结果同步到数据库中,在管理后台查看。那么使用E-MapReduc...转载 2019-01-11 14:21:54 · 1267 阅读 · 0 评论 -
基于TableStore的数据采集分析系统介绍
摘要在互联网高度发达的今天,ipad、手机等智能终端设备随处可见,运行在其中的APP、网站也非常多,如何采集终端数据进行分析,提升软件的品质非常重要,例如PV/UV统计、用户行为数据统计与分析等。虽然场景简单,但是数据量大,对系统的吞吐量、实时性、分析能力、查询能力都有较高的要求,搭建起来并不容易。今天我们来介绍一下基于阿里云表格存储,以及相关的大数据产品来采集与分析数据的方案。Table...转载 2019-02-21 17:11:38 · 351 阅读 · 0 评论 -
百亿级全网舆情分析系统存储设计
前言在时下互联网信息的浪潮下,信息的传播速度远超我们的想象。微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞。如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失。所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情。这个全网舆...转载 2019-02-21 17:16:50 · 575 阅读 · 0 评论 -
MySQL的binlog日志详解
binlog 基本认识 MySQL的二进制日志可以说是MySQL最重要的日志了,它记录了所有的DDL和DML(除了数据查询语句)语句,以事件形式记录,还包含语句所执行的消耗的时间,MySQL的二进制日志是事务安全型的。 一般来说开启二进制日志大概会有1%的性能损耗(参见MySQL官方中文手册 5.1.24版)。二进制有两个最重要的使用场景: 其一:MySQL Rep...转载 2019-02-26 20:00:12 · 337 阅读 · 0 评论 -
ROW_NUMBER() OVER函数的基本用法
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)步骤1:简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。步骤2:row_number() OVER (PART...转载 2019-06-13 19:32:34 · 271 阅读 · 0 评论 -
Windows下使用DOS命令进入MySQL数据库
工具/原料MySQL数据库5.5.25(已完成安装并配置环境变量)Windows7操作系统方法/步骤桌面左下角windows图标--搜索框内输入cmd,结果如图所示,点击cmd.exe,或者使用快捷键Windows键(在键盘上有个Windows标志的按键)+R输入cmd后回车。启动mysql数据库:在出来的DOS命令窗口中输入 net start mysql,或者使用快捷键Windows键(在键盘...原创 2018-04-21 15:28:54 · 463 阅读 · 0 评论 -
Hadoop Shell命令(基于linux操作系统上传下载文件到hdfs文件系统基本命令学习)
Apache-->hadoop的官网文档命令学习:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.htmlFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path...原创 2018-04-20 13:03:36 · 979 阅读 · 0 评论 -
HDFS基本原理及数据存取实战
本文主要介绍了hdfs的基本原理、hdfs基本操作、hdfs的读取数据流程、namenode工作机制,rpc编程以及常见的两种必会的面试题等,旨在于全面深入的理解HDFS的基本工作流程并可以开发出简易的HDFS的程序。一、HDFS简介Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点,一类是N...转载 2018-03-10 17:42:04 · 636 阅读 · 0 评论 -
Flume-og和Flume-ng的变化详解
Cloudera 开发的分布式日志收集系统 Flume,可以实时的将分布在不同节点、机器上的日志收集到 存储系统中。Flume 初始的发行版本统称为 Flume OG(original generation),属于 cloudera。但随着 Flume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其 Flume OG 的最后一个发行版本 0....转载 2018-03-16 21:44:33 · 916 阅读 · 0 评论 -
HBase行键设计原则
【原理】HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowkey的二进制序由小...原创 2018-03-13 16:58:16 · 10164 阅读 · 0 评论 -
使用 Flume 收集数据
一、实验介绍1.1 实验内容Flume 是分布式的日志收集系统,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义等,本节课主要讲解 Flume 的应用案例。1.2 课程来源本课程源自 图灵教育 的 《Hadoop基础教程》 第1...原创 2018-03-23 16:50:59 · 593 阅读 · 0 评论 -
mysql 远程连接数据库的方法汇总
一、连接远程数据库:1、显示密码如:MySQL 连接远程数据库(192.168.5.116),端口“3306”,用户名为“root”,密码“123456”C:/>mysql -h 192.168.5.116 -P 3306 -u root -p1234562、隐藏密码如:MySQL 连接本地数据库,用户名为“root”,C:/>mysql -h localhost -u root ...原创 2018-03-20 10:56:40 · 674 阅读 · 0 评论 -
Intellij IDEA 快捷键整理
【常规】Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可以快速打开类Ctrl...原创 2018-03-24 11:06:49 · 300 阅读 · 0 评论 -
HBase-1.2.1和Phoenix-4.7.0分布式安装指南
目录目录 11. 前言 22. 概念 22.1. Region name 23. 约定 24. 相关端口 35. 下载HBase 36. 安装步骤 36.1. 修改conf/regionservers 36.2. 修改conf/hbase-site.xml 36.2.1. hbase.master.info.port 56.2.2. hbase.master.info.bindAddress 56...转载 2018-03-14 15:42:16 · 769 阅读 · 0 评论 -
Kettle Spoon入门教程
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。其中,Spoon是Kettle中的一个组件,其他组件有PAN,CHEF,Encr和KITCHEN等。Spoon通过图形化的页面,方便直观的让你完成数据转换的操作。1、安装配置点我下载最新版本是7.1,小编这里使用的是6.1。下载完毕后,解压即可。因为是Java编写的,需要j...原创 2018-04-16 21:22:52 · 1464 阅读 · 0 评论 -
Sqoop-1.4.6安装部署及详细使用介绍
之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。Sqoop1安装配置比较简单一、安装部署(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz解压到/opt/cdh5/sqoop(2)、拷贝mysql的jdbc驱动包mysql-connector-ja...原创 2018-04-18 12:37:10 · 289 阅读 · 0 评论 -
Spark常用算子详解
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action...原创 2018-04-12 19:22:11 · 38191 阅读 · 6 评论 -
linux中ifconfig后不显示eth0网卡的解决方法
【环境参数】VMware:10.0.1 build-1379776Host OS:Win7 32bitHost IP:192.168.0.101Client IP:无网卡Client OS:CentOS 6.5 x86_64,i686,最小化安装(Minimal)。在安装自定义组件包时,(1)Base System只安装了Base,Compatibility Libraries和Debuggi...原创 2018-04-18 22:11:06 · 16890 阅读 · 1 评论 -
Spark基础知识点儿汇总
*spark的理解spark是一个快速的、统一的大规模数据处理引擎它是基于内存计算的它的特点是:快速、易用、适用于各种数据处理场景(批处理、流处理、交互式处理)、它可以运行在多种分布式计算框架中,如yarn和mesos等*spark的架构Master spark计算集群的主节点,负责接收客户端提交来的spark job,并且负责work节点的资源申请和资源调配,在程序运行时,对各个子节点的状...原创 2018-04-13 19:26:05 · 2026 阅读 · 0 评论 -
Phoenix4.7.0安装
1. phoenix安装拷贝phoenix-4.7.0-HBase-1.1-bin.tar.gz文件到linux的/usr/tools目录下面解压:tar –zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz生成新的目录phoenix-4.7.0-HBase-1.1-bin将其配置到环境变量中去#phoenixexport PHOENIX_HOME=/usr/too...原创 2018-03-14 19:13:42 · 605 阅读 · 0 评论