- 博客(276)
- 收藏
- 关注
转载 走进大数据丨 分享两道大厂SQL笔试题
第一道SQL我们有如下的用户访问数据userIdvisitDatevisitCountu012019/1/215u022019/1/236u032019/1/228u042019/1/2...
2019-11-25 17:40:00 1019
转载 走进大数据丨 Kafka(三)
常见的Message Queue对比RabbitMQRabbitMQ是使用Erlang编写的一个开源消息队列,本身支持很多协议:AMQP、XMPP、SMPT、STOMP,也正因为如此,它...
2019-11-22 17:50:00 150
转载 走进大数据丨 Kafka(二)
Kafka的优点解耦在项目启动之初来预测项目将来会碰到什么需求,是极其困难的。消息系统在处理的过程中间插入了一个隐含的,基于数据的接口层,两边的处理过程都要实现这一接口。这允许你队列的扩...
2019-11-20 17:48:00 134
转载 走进大数据丨 Flink第一个自定义程序wordcount
创建maven仓库添加xml依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns...
2019-11-18 17:50:00 147
转载 走进大数据丨 ETL - 性能分析
ETL过程中难免遇到性能问题,运行很慢是一件较常见的事情,遇到这些问题时,我们该如何分析,解决呢?首先我们要找到问题出在哪里,也就是系统的瓶颈在哪.确定环境是否有瓶颈:检查资源是否有效配...
2019-11-16 12:10:00 602
转载 走进大数据丨 Hive常见函数
Hive中常见的SQL函数显示HOST地址select parse_url('地址','HOST')实例: select parse_url('h...
2019-11-15 12:10:00 359
转载 走进大数据丨 Kafka(一)
kafka概述Kafka是一个分布式,分区的,多副本的,多订阅者,基于zookeeper协调的的分布式日志系统,常见可用于web/nginx日志,消息服务等等。Kafka设计目标1.以时...
2019-11-14 18:00:00 216
转载 ETL - 全量与增量
在之前的ETL介绍中我们介绍了数据抽取,包括了全量数据抽取和增量数据抽取。今天给大家做一下增量和全量的差异介绍。全量增量用于数据采集的差异:全量抽取简单,但是数据量大;增...
2019-09-10 11:10:00 6079 1
转载 SQL中的ROW NUMBER() OVER()
原始数据展示 一:SQL展示select id,name,age,salary,row_number()over(order by salary ...
2019-09-10 11:10:00 620
转载 数据仓库到底是干什么的
One.何为数据仓库答:数据仓库是一个可以存储海量数据的数据库,目的是专门应用于数据分析进行决策的数据仓库的输入数据源是各种格式的。那么从数据仓库处理后的数据可用于数据...
2019-09-09 11:15:00 2642
转载 了解数据分析常用的基本概念
数据统计和数据挖掘“统计”,对于大多数人来说不是很陌生,在“统计”、“挖掘”这两个概念中,可能大家往往会觉得“挖掘”更难理解。统计和挖掘最大的差别在于:统计是事先设想好的...
2019-09-09 11:15:00 612
转载 数据清洗的几个要点-大数据开发流程
大数据开发流程:从数据采集-》数据清洗-》数据处理(分析,计算···)我们采集过来的数据是有问题的,其中可能有脏数据或者无效数据,所以我们想要进行数据处理之前,就要对采集...
2019-09-08 15:15:03 4279
转载 ETL - ETL工具介绍
上篇文章我们介绍了ETL的概念和ETL的整个过程。那么今天我们给大家介绍一下ETL的常用工具:DataX、Datastage、Informatica、Kettle、Da...
2019-09-08 15:15:03 904
转载 Elasticsearch中安装IK分词器
在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字。而IK分词器对中文的支持比较好一些,主要有两种模式“ik_smart”和“ik_max...
2019-09-06 11:03:00 407
转载 走进Spark Streaming
离散流DStreamDStream是Spark Streaming中的一个最基本的抽象,代表了一系列连续的数据流,本质上就是一系列的RDD。StreamingConte...
2019-09-05 11:05:00 214
转载 MapReduce之起源篇
基本概念MapReduce是由Google提出的一种面向大规模数据处理的并行计算模型和方法。Google提出;MapReduce的初衷是为了解决其搜索引擎中大规模的网页数...
2019-09-05 11:05:00 1890
转载 ETL介绍
ETL是什么ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)zhog...
2019-09-02 11:00:21 886
转载 数据分析的流程
数据分析的流程数据分析一般有数据采集、数据整理、制表、数据分析、数据呈现等多个阶段。当然,不是说每一个数据分析的过程都需要这些阶段,有的企业数据质量非常好,自然就不需要数...
2019-09-02 11:00:21 230 1
转载 ElasticSearch快速高效分布式搜索服务器
1 1.ElasticSearch的简介ElasticSearch是一个分布式可拓展的实时搜索和分析引擎ElasticSearch的功能:a.分布式实时文件存储,并将每一...
2019-08-31 14:40:17 400 1
转载 关于程序员的调查报告
最近Stack Overflow发布一份开发者调查报告,内容涵盖了开发人员最喜欢的技术到工作偏好等等各种问题。下面小编就带大家一起来看一看。NO.1最常用的的编程语言:...
2019-08-31 14:40:17 1863 1
转载 什么是数据分析?【点开 文末 惊喜:留言评论送书/送课程】
什么是数据分析之前看了一篇文章提到一些问题:我们企业其实不需要数据分析的。我们公司的业务情况,我很清楚,分布分析都一样。公司的数据很简单,就那点,不需要分析。公司里面很多...
2019-08-30 14:40:46 602 1
转载 Flink的流处理
概述Flink是一个用于对无界和有界数据流进行有状态计算的框架。Flink在不同的抽象级别提供多个API,并为常见用例提供专用库。流媒体应用程序的构建块可以由流处理框架构...
2019-08-29 11:05:00 2955
转载 关于Flink DataSource数据接入
DataSet API支持从多种数据源中将批量数据集读到Flink系统中,并转换成DataSet数据集。三个月接入接口共有三种类型,分别是文件系统类型,Java Coll...
2019-08-28 11:10:00 1475
转载 为什么spark比mapreduce处理数据快
落地方式不同mapreduce任务每一次处理完成之后所产生的结果数据只能够保存在磁盘,后续有其他的job需要依赖于前面job的输出结果,这里就只能够进行大量的io操作获取...
2019-08-28 11:10:00 467
转载 大数据体系
开发语言1.Java,大数据框架的编写支持很多开发语言,但是Java在大数据方面有很大的优势,目前流行的大数据Hadoop框架,MapReduce框架,很多部分都是用开源...
2019-08-28 11:10:00 575
转载 关于Flink中的时间概念
对于流式数据处理,最大的特点是数据上具有时间的属性特征, Flink根据时间产生的位置不同,将时间区分为三种时间概念,分别为事件生成时间( Event Time)事件接入...
2019-08-27 11:55:00 778 1
转载 hadoop集群基本进程
namenodenamenode 相当于一个领导者,负责调度 比如你需要存一个640m的文件 如果按照64m分块 那么namenode就会把这10个块(这里不考虑副本)分...
2019-08-27 11:55:00 623
转载 数据分析一些常用工具
EXCEL适用范围:主流的办公软件。优点:数据录入方便、学习使用门槛低、能够满足普通工作的大部分。缺点:分析功能较弱、数据存储量不需要够大、不能应付大数据。VBA适用...
2019-08-26 10:07:35 508
转载 Hive SQL语法总结
Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作,了解SQL的人,学起来毫不费力。Hive ...
2019-08-25 15:32:09 207
转载 学习数据仓库Hive
数据分析引擎:hive大数据的终极目标:使用SQL语句来处理大数据1,hadoop的体系架构中:两个数据分析引擎:(*)Hive:支持sql ...
2019-08-25 15:32:09 161
转载 一起学习Shell脚本
什么是shell脚本? 脚本最初是从演艺界中的一个词,指表演戏剧、拍摄电影等所依据的底本或者书稿的底本。后来,IT行业引用了这个词,我们现在所说的脚本(script...
2019-08-24 11:07:20 268
转载 了解ElasticSearch
1.ElasticSearch的简介ElasticSearch是一个分布式可拓展的实时搜索和分析引擎ElasticSearch的功能:a.分布式实时文件存储,并将每一个...
2019-08-24 11:07:20 219
转载 Centos7划分磁盘
默认划分磁盘方式我们安装的centos7系统是可视化界面安装的,其中在划分磁盘的时候无法自定义划分,然后安装好之后,使用命令:[root@cdh2~]#df-h可以...
2019-08-23 10:10:47 2212
转载 走近机器学习
我们很早就发现,数据中蕴藏着规律,这个规律是所有数据都遵循的,过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按...
2019-08-23 10:10:47 170
转载 互联网常见的大数据分析指标
不同的互联网行业关注不同的运营数据,细化来看,复杂的互联网产品关注的运营指标成百上千。但是有一些指标是我们最常用的,这些指标基本反映了运营的核心状态1.新增用户数新增用户...
2019-08-22 10:49:42 8662 1
转载 RDD中的常用算子
基本概念主要分为两大类Trasnformation和Actiontrasnformation(转换):主要是物理的转换,不会触发任务的真正的执行,只会记录我们进行了什么操...
2019-08-22 10:49:42 1384
转载 Flink的常见问题
Flink仅用于(近)实时处理用例吗Flink是一个非常通用的系统,用于数据处理和数据驱动的应用程序,数据流作为核心构建块。这些数据流可以是实时数据流或存储的历史数据流。...
2019-08-22 10:49:42 1117
转载 Spark基础篇
Spark概述Spark是一种快速、通用、可扩展的大数据分析引擎,Spark生态系统是一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming...
2019-08-22 10:49:42 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人