- 博客(81)
- 资源 (10)
- 收藏
- 关注
原创 基于地域的订单分类指标分析(思路指向)
5 1 获取全国、无商品分类维度的分交易类型数据 6 2 获取全国、无商品分类维度的不分交易类型的数据 itcast_payments -> itcast_orders -> itcast_orders_goods 7 3 获取全国、一级商品分类维度的分交易类型数据 itcast_payments -> itcast_orders -> ...
2020-04-27 20:24:36 7160 3
原创 项目需求
目录需求列表需求列表 模块 序号 (所有) 序号 (模块) 需求 基于日期的订单指标分析 1 1 统计2019年期间每个季度的销售订单笔数、订单总额 2 2 ...
2020-04-27 15:59:47 7217 2
原创 阶段一
目录电商行业分析电商行业技术特点电商业务系统简介项目简介项目架构项目环境介绍项目ER图原始表本项目ER图了解大数据离线数仓架构 了解项目部署环境(数据规模和集群规模) 了解项目ER图 了解项目需求电商行业分析近年来,中国的电子商务快速发展,交易额连创新高,电子商务在各领域的应用不断拓展和深化、相关服务业蓬勃发展、支撑体系不断健全完善、创新的动力...
2020-04-27 15:56:30 7761 1
原创 总体介绍
阶段一项目背景介绍了解行业背景、了解项目背景,项目架构介绍、技术选型,项目环境(数据/硬件)介绍,项目ER图、项目需求介绍。基于项目需求实现查询功能(写SQL)或整理出查询流程阶段二准备数据(Mysql->Hive)学习、掌握kettle的使用、使用kettle将项目需求所需的数据在MYsql同步到Hive使用sqoop,将剩余的数据在MYsql同步到Hive...
2020-04-27 15:47:27 7767 2
原创 数仓的含义
目录1. 什么是数仓?2.数据仓库和数据集市的概念3.数据仓库和数据集市之间的区别1. 什么是数仓?数仓 可以理解 为 :数据仓库 或者 数据集市那么 “数据仓库”的概念可以追溯到80 年代中期。从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。在缺乏“数据仓库”体...
2020-04-27 15:43:19 8523 4
原创 项目需求(基于日期的订单指标分析)
目录统计2019年期间每个季度的销售订单笔数、订单总额• 统计2019年期间每个月的销售订单笔数、订单总额统计2019年期间每周一到周日的销售订单笔数、订单总额统计2019年期间每个季度的销售订单笔数、订单总额-- 统计2019年期间每个季度的销售订单笔数、订单总额select jidu.mgjdu as mgjdu, count(io...
2020-04-25 19:12:53 7171
原创 判断日期是否为 法定节假日、休息日、工作日
package com.czxy; import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.text.ParseExceptio...
2020-04-25 18:27:13 12573
原创 大数据相关命令
安全模式 关闭hdfs dfsadmin -safemode leave查看历史命令history查看ps -ef | grep 名称 hive Zookeeper 开启与关闭全部 开启zkstart-all.sh 逐个节点关闭cd /export/servers/...
2020-04-24 10:36:43 7050
原创 使用Spark Streaming对接kafka 写入 mysql 并查询 插入(实时更新 并 覆盖)
以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论部分数据:17 0 2018/10/20 21:08 许向暖呐:滚 0 0 5670089757 许向暖呐 0 154004088018 0 2018/10/20 21:08 曹大老实人:你知道我在网吧看比赛我周围的人一直说rng回家的时候我心里多难受吗 0 0 6384972437 曹大老实人...
2020-04-23 18:48:38 7217 3
原创 StructStreaming 代码
//需求 统计年龄小于25岁的人群的爱好排行榜 读取文件package day26import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}import org.apache.spark.sql.types.StructTypeobject StructStreaming_files { d...
2020-04-22 12:00:30 8113 7
原创 Scala 样例类
目录1、创建一个demo1的单例,在demo1中创建一个样例类名字为student1,成员变量为name:String, age:Int创建主方法实例化student,并传参数(“xiaoming”,20),打印输出student1对象到控制台2、创建一个demo2的单例,在demo2中创建一个样例类名字为student2,成员变量为name:String, age:Int创建主方法实例化...
2020-04-22 11:55:20 8698 2
原创 Structured Streaming SQL
package Sparkimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 使用Structured Streaming读取Socket数据,把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中 * (abc,cba) */object demo01 {def main(args: A...
2020-04-22 11:43:07 7685 4
原创 SparkRDD 练习
以下是租房信息的数据结构:数据之间使用tab进行分割,数据在housedata.txt文件中。(这里为一部分数据)1111000004310 什坊院甲3号院 https://bj.lianjia.com/xiaoqu/1111000004310/ 海淀 田村 0 2017/11/29 15:471111027373682 大慧寺6号院 https://bj.lianjia.com/x...
2020-04-22 11:23:11 8593 2
原创 Spark Streaming
目录什么是Spark Streaming什么是DStream阐明RDD、DataFrame、DataSet、DStream数据抽象之间的关系。SparkStreaming代码过程窗口宽度和滑动距离的关系0.8版本SparkStreaming集成kafka的差异Receiver接收方式Direct直连方式什么是Structured StreamingSt...
2020-04-22 11:11:15 7984 1
原创 Spark SQL 自定义函数、开窗函数
目录RDD、DF、DS三者之间的转化Spark SQL自定义函数开窗函数的作用开窗函数的分类聚和开窗函数排序聚和函数聚和开窗函数排序聚和函数RANK跳跃排序RDD、DF、DS三者之间的转化转换成RDD .rdd转换成DF .toDF()转换成DSRDD->DS .toDS()...
2020-04-22 11:03:22 8177 1
原创 SparkSQL
目录累加器的作用广播变量的作用SparkSQL基本介绍什么是SparkSQL?SparkSQL底层的数据抽象什么是DataFrame??什么是DataSet??SparkSQL查询数据的形态添加Schema的方式通过StructType指定Schema代码流程利用反射机制推断Schema代码流程累加器的作用累加器accumulators:累...
2020-04-22 11:01:53 7933 3
原创 Spark
目录什么是SparkSpark特点Spark运行模式Spark编写代码SparkCore什么是RDDRDD的主要属性RDD的算子分为两类:Rdd数据持久化什么作用?cache和Checkpoint的区别什么是宽窄依赖什么是DAGDAG边界Spark概念Spark执行任务的基本流程什么是Spark基于内存的,用于大规模数据处...
2020-04-22 10:59:32 7444 9
转载 Kettle
目录一、Kettle概述01 什么是Kettle?02Kettle核心知识二、Kettle安装部署01 Kettle安装地址02 Windows下安装使用三、Kettle入门案例案例一:把stu1的数据按id同步到stu2,stu2有相同id则更新数据(4) 实战流程如下查看MySQL数据库,效果和我们的需求一致 !案例二:使用Job作业方式调度转换操...
2020-04-20 19:09:01 7463 10
原创 一篇吃饱 Structured Streaming
目录Structured Streaming曲折发展史Spark StreamingStructured StreamingStructured Streaming实战 (三种方式 WorldCount)Socket source方式Json source方式Kafka source方式Structured Streaming...
2020-04-17 11:27:19 8197 14
原创 Spark-streaming-kafka
目录说明核心概念图解pom.xmlAPI创建topic启动生产者代码演示说明spark-streaming-kafka-0-10版本中,API有一定的变化,操作更加灵活,开发中使用核心概念图解pom.xml <!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <reposi...
2020-04-17 11:05:39 9419 6
原创 SparkStreaming 介绍
一Spark Streaming引入新的场景需求●集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等还有很多很多二Spark...
2020-04-14 17:49:04 9712 24
原创 BIgData 命令操作
查看ps -ef | grep 名称 hive Zookeeper 开启与关闭全部 开启zkstart-all.sh 逐个节点关闭zkServer.sh stop时间同步 联网ntpdate ntp4.aliyun.com启动 HDFS启动start-all.sh关闭 sto...
2020-04-14 16:34:35 8515 6
原创 Spark 集成 Hive
Hive查询流程及原理执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务Hive将SQL转成MapReduce执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hive的元数据库服务,让SparkSQL能够加载元数...
2020-04-14 16:24:39 8860 7
原创 Oracle 错误疑难解决方案和总结
Ⅰ.oracle itcastOracle 安装自动生成sys用户和system用户sys 超级用户 具有最高权限 具有sysDBA角色,有create database权限该用户默认密码是change_in_installsystem 管理操作员 权限也比较大,具有sysoper角色,没有create database权限。该用户默认密码是 manager这是...
2020-04-14 10:46:57 9662 2
原创 MySQL 优化
首先了解什么是优化?合理安排资源、调整系统参数使MySQL运行更快、更节省资源。 优化是多方面的,包括查询、更新、服务器等。 原则:减少系统瓶颈,减少资源占用,增加系统的反应速度。数据库 性能参数使用SHOW STATUS语句查看MySQL数据库的性能参数 SHOW STATUS LIKE 'value‘ 常用的参数: Slow_queries 慢查询次数...
2020-04-14 10:44:56 8956 10
原创 Spark RDD 练习
1、创建一个1-10数组的RDD,将所有元素*2形成新的RDDscala> val rdd1 = sc.parallelize(1 to 10)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24scala> val rdd2 ...
2020-04-13 21:16:13 10852 2
原创 Spark 自定义UDF
●需求有udf.txt数据格式如下:Helloabcstudysmall通过自定义UDF函数将每一行数据转换成大写select value,smallToBig(value) from t_wordpackage cn.itcast.sqlimport org.apache.spark.SparkContextimport org.apa...
2020-04-13 21:04:58 8271 1
原创 Spark UDAF 自定义函数
需求有udaf.json数据内容如下{"name":"Michael","salary":3000}{"name":"Andy","salary":4500}{"name":"Justin","salary":3500}{"name":"Berta","salary":4000}求取 平均工资●继承UserDefinedAggregateFunction方法...
2020-04-13 21:03:17 8655
原创 Spark 三种方式 查询数据
1、分别给出一张表的数据:student_scores.txt字段是:班级编号,班级名称,入学日期,所属院系中文名学号,姓名,性别,所属班级编号,入学成绩170401011001 ,施礼义,男,0101,467170401011002 ,王旭,男,0101,518170401011003 ,肖桢,女,0101,509170401011004 ,吴佩东,男,0101,508170...
2020-04-13 21:01:37 11195 8
原创 MySql Data Manipulation Language 数据操纵语言 (DML)
员工表employee 建表语句: create table employee ( id int, name varchar(20), sex varchar(10), birthday date, salary float, resume text );数据: insert into employee va...
2020-04-13 10:21:19 8405 2
原创 MySql 单表查询练习
学生表students 建表语句: CREATE TABLE `students` ( `name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '姓名', `age` int(11) NULL DEFAULT NULL COM...
2020-04-13 09:53:11 8527 2
原创 Review HDFS 文件系统的容量
HDFS 文件系统的容量 理解: 将多个节点的容量汇总到一起拼接成一个大的文件系统,在一个节点上传数据,在其他的节点上都能够访问使用。图解 :...
2020-04-12 11:14:03 9429
原创 Review Hadoop 的组成部分
hadoop 的组成部分HDFS管理者:NameNode作用:负责管理,管理集群内各个节点。负责管理整个文件系统的元数据(指的是数据的存放位置或存放路径)或名字空间辅助管理者:SecondaryNameNode作用:责辅助NameNode管理工作。工作者:DataNode作用:负责工作,进行读写数据。 周期向NameNode汇报。负责管理用户的文件数据块(一个大的数...
2020-04-12 11:13:53 8619 2
原创 Review HDFS数据完整性
HDFS数据完整性数据在写入之后进行校验和的计算,DataNode周期性进行校验和计算,将计算结果与第一次的结果进行对比。若相同表示无数据丢失,若不相同表示数据有丢失,丢失进行数据恢复。数据读取之前对数据进行校验,与第一次的结果进行对比。若相同表示数据没有丢失,可以读取。若不相同表示数据有所丢失。到其他副本读取。...
2020-04-12 11:13:41 7988 1
原创 Review impala
impala的安装部署1、软件包的上传解压安装包大于4G,所以需要另行上传。每个节点需要优先安装nc yum install -y nc安装impala的节点至少需要有12G的剩余空间(5.1G 安装包,5.1G解压后的包)2、制作网络源将安装包解压后,配置成yum源3、安装impala在主节点(node03)安装yum install -y impala impala...
2020-04-12 11:13:22 7946 1
原创 Review HBase
hbase 的安装部署1、软件包上传解压2、 配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-masters6、...
2020-04-12 11:13:10 8652 7
原创 Review Hbase记忆
1.HBase的基本介绍 a.Hbase是建立在hdfs之上的一个数据库,b.不支持join等SQL复杂操作c.支持的数据类型:byte[],d.依靠横向扩展,一个表可以有上十亿行,上百万列。e.面向列(族)的存储和权限控制f.对于为空(null)的列,并不占用存储空间,是一个稀疏表。2.HBASE的适用场景 海量数据、精确查询、快速返回海量数据:指...
2020-04-12 11:12:54 7860 1
原创 Review Flume
flume:负责数据的收集,采集传输,并将数据存储在大数据生态系统。数据采集:文件、文件夹、数据包,kafka.数据存储:HDFS,hbase, hive, kafkaXXX收集,采集,传输例如:扫码枪,打卡机,收割机,吸尘器Flume内部模块1、Source :与数据源对接,用于数据的收集,采集。2、Channel: 数据的传输(一个flumeAgent内部)3、Si...
2020-04-11 08:36:34 8395
原创 Review Hive 知识点
>## 什么是Hive?>>Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。>>## Hive的意义(最初研发的原因)?...
2020-04-11 08:29:10 9374 3
原创 Review MapReduce
计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架 并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算3、节点横向扩展4、移动程序到数据...
2020-04-11 08:23:32 7732 1
用户画像01:用户画像概念、项目概述及环境搭建.md
2020-06-04
用户画像系统_【标签体系】信息.xlsx
2020-06-04
Scala文档.docx
2020-04-13
Yarn日记.docx
2020-04-03
Redis命令日记.docx
2020-04-03
Scala样例类练习.docx
2020-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人