2020年04月_睡覺了

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创基于地域的订单分类指标分析（思路指向）

5 1 获取全国、无商品分类维度的分交易类型数据 6 2 获取全国、无商品分类维度的不分交易类型的数据 itcast_payments -> itcast_orders -> itcast_orders_goods 7 3 获取全国、一级商品分类维度的分交易类型数据 itcast_payments -> itcast_orders -> ...

2020-04-27 20:24:36 7160 3

原创项目需求

目录需求列表需求列表模块序号（所有）序号（模块）需求基于日期的订单指标分析 1 1 统计2019年期间每个季度的销售订单笔数、订单总额 2 2 ...

2020-04-27 15:59:47 7217 2

原创阶段一

目录电商行业分析电商行业技术特点电商业务系统简介项目简介项目架构项目环境介绍项目ER图原始表本项目ER图了解大数据离线数仓架构了解项目部署环境（数据规模和集群规模）了解项目ER图了解项目需求电商行业分析近年来，中国的电子商务快速发展，交易额连创新高，电子商务在各领域的应用不断拓展和深化、相关服务业蓬勃发展、支撑体系不断健全完善、创新的动力...

2020-04-27 15:56:30 7761 1

原创总体介绍

阶段一项目背景介绍了解行业背景、了解项目背景，项目架构介绍、技术选型，项目环境（数据/硬件）介绍，项目ER图、项目需求介绍。基于项目需求实现查询功能（写SQL）或整理出查询流程阶段二准备数据（Mysql->Hive）学习、掌握kettle的使用、使用kettle将项目需求所需的数据在MYsql同步到Hive使用sqoop,将剩余的数据在MYsql同步到Hive...

2020-04-27 15:47:27 7767 2

原创数仓的含义

目录1. 什么是数仓？2．数据仓库和数据集市的概念3．数据仓库和数据集市之间的区别1. 什么是数仓？数仓可以理解为：数据仓库或者数据集市那么 “数据仓库”的概念可以追溯到80 年代中期。从本质上讲，最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型，并尝试解决和这些数据流相关的各种问题。在缺乏“数据仓库”体...

2020-04-27 15:43:19 8523 4

原创项目需求(基于日期的订单指标分析)

目录统计2019年期间每个季度的销售订单笔数、订单总额• 统计2019年期间每个月的销售订单笔数、订单总额统计2019年期间每周一到周日的销售订单笔数、订单总额统计2019年期间每个季度的销售订单笔数、订单总额-- 统计2019年期间每个季度的销售订单笔数、订单总额select jidu.mgjdu as mgjdu, count(io...

2020-04-25 19:12:53 7171

原创判断日期是否为法定节假日、休息日、工作日

package com.czxy; import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.text.ParseExceptio...

2020-04-25 18:27:13 12573

原创大数据相关命令

安全模式关闭hdfs dfsadmin -safemode leave查看历史命令history查看ps -ef | grep 名称 hive Zookeeper 开启与关闭全部开启zkstart-all.sh 逐个节点关闭cd /export/servers/...

2020-04-24 10:36:43 7050

原创使用Spark Streaming对接kafka 写入 mysql 并查询插入（实时更新并覆盖）

以下是RNG S8 8强赛失败后，官微发表道歉微博下一级评论部分数据：17 0 2018/10/20 21:08 许向暖呐：滚 0 0 5670089757 许向暖呐 0 154004088018 0 2018/10/20 21:08 曹大老实人：你知道我在网吧看比赛我周围的人一直说rng回家的时候我心里多难受吗 0 0 6384972437 曹大老实人...

2020-04-23 18:48:38 7217 3

原创 StructStreaming 代码

//需求统计年龄小于25岁的人群的爱好排行榜读取文件package day26import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}import org.apache.spark.sql.types.StructTypeobject StructStreaming_files { d...

2020-04-22 12:00:30 8113 7

原创 Scala 样例类

目录1、创建一个demo1的单例，在demo1中创建一个样例类名字为student1，成员变量为name:String, age:Int创建主方法实例化student，并传参数（“xiaoming”,20）,打印输出student1对象到控制台2、创建一个demo2的单例，在demo2中创建一个样例类名字为student2，成员变量为name:String, age:Int创建主方法实例化...

2020-04-22 11:55:20 8698 2

原创 Structured Streaming SQL

package Sparkimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 使用Structured Streaming读取Socket数据，把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中 * （abc,cba） */object demo01 {def main(args: A...

2020-04-22 11:43:07 7685 4

原创 SparkRDD 练习

以下是租房信息的数据结构：数据之间使用tab进行分割，数据在housedata.txt文件中。(这里为一部分数据)1111000004310 什坊院甲3号院 https://bj.lianjia.com/xiaoqu/1111000004310/ 海淀田村 0 2017/11/29 15:471111027373682 大慧寺6号院 https://bj.lianjia.com/x...

2020-04-22 11:23:11 8593 2

原创 Spark Streaming

目录什么是Spark Streaming什么是DStream阐明RDD、DataFrame、DataSet、DStream数据抽象之间的关系。SparkStreaming代码过程窗口宽度和滑动距离的关系0.8版本SparkStreaming集成kafka的差异Receiver接收方式Direct直连方式什么是Structured StreamingSt...

2020-04-22 11:11:15 7984 1

原创 Spark SQL 自定义函数、开窗函数

目录RDD、DF、DS三者之间的转化Spark SQL自定义函数开窗函数的作用开窗函数的分类聚和开窗函数排序聚和函数聚和开窗函数排序聚和函数RANK跳跃排序RDD、DF、DS三者之间的转化转换成RDD .rdd转换成DF .toDF()转换成DSRDD->DS .toDS()...

2020-04-22 11:03:22 8177 1

原创 SparkSQL

目录累加器的作用广播变量的作用SparkSQL基本介绍什么是SparkSQL?SparkSQL底层的数据抽象什么是DataFrame？？什么是DataSet??SparkSQL查询数据的形态添加Schema的方式通过StructType指定Schema代码流程利用反射机制推断Schema代码流程累加器的作用累加器accumulators:累...

2020-04-22 11:01:53 7933 3

原创 Spark

目录什么是SparkSpark特点Spark运行模式Spark编写代码SparkCore什么是RDDRDD的主要属性RDD的算子分为两类:Rdd数据持久化什么作用？cache和Checkpoint的区别什么是宽窄依赖什么是DAGDAG边界Spark概念Spark执行任务的基本流程什么是Spark基于内存的，用于大规模数据处...

2020-04-22 10:59:32 7444 9

转载 Kettle

目录一、Kettle概述01 什么是Kettle？02Kettle核心知识二、Kettle安装部署01 Kettle安装地址02 Windows下安装使用三、Kettle入门案例案例一:把stu1的数据按id同步到stu2，stu2有相同id则更新数据(4) 实战流程如下查看MySQL数据库，效果和我们的需求一致！案例二:使用Job作业方式调度转换操...

2020-04-20 19:09:01 7463 10

原创一篇吃饱 Structured Streaming

目录Structured Streaming曲折发展史Spark StreamingStructured StreamingStructured Streaming实战 (三种方式 WorldCount)Socket source方式Json source方式Kafka source方式Structured Streaming...

2020-04-17 11:27:19 8197 14

原创 Spark-streaming-kafka

目录说明核心概念图解pom.xmlAPI创建topic启动生产者代码演示说明spark-streaming-kafka-0-10版本中，API有一定的变化，操作更加灵活，开发中使用核心概念图解pom.xml  <reposi...

2020-04-17 11:05:39 9419 6

原创 SparkStreaming 介绍

一Spark Streaming引入新的场景需求●集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等还有很多很多二Spark...

2020-04-14 17:49:04 9712 24

原创 BIgData 命令操作

查看ps -ef | grep 名称 hive Zookeeper 开启与关闭全部开启zkstart-all.sh 逐个节点关闭zkServer.sh stop时间同步联网ntpdate ntp4.aliyun.com启动 HDFS启动start-all.sh关闭 sto...

2020-04-14 16:34:35 8515 6

原创 Spark 集成 Hive

Hive查询流程及原理执行HQL时，先到MySQL元数据库中查找描述信息，然后解析HQL并根据描述信息生成MR任务Hive将SQL转成MapReduce执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库，然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hive的元数据库服务，让SparkSQL能够加载元数...

2020-04-14 16:24:39 8860 7

原创 Oracle 错误疑难解决方案和总结

Ⅰ.oracle itcastOracle 安装自动生成sys用户和system用户sys 超级用户具有最高权限具有sysDBA角色，有create database权限该用户默认密码是change_in_installsystem 管理操作员权限也比较大，具有sysoper角色，没有create database权限。该用户默认密码是 manager这是...

2020-04-14 10:46:57 9662 2

原创 MySQL 优化

首先了解什么是优化？合理安排资源、调整系统参数使MySQL运行更快、更节省资源。优化是多方面的，包括查询、更新、服务器等。原则：减少系统瓶颈，减少资源占用，增加系统的反应速度。数据库性能参数使用SHOW STATUS语句查看MySQL数据库的性能参数 SHOW STATUS LIKE 'value‘ 常用的参数： Slow_queries 慢查询次数...

2020-04-14 10:44:56 8956 10

原创 Spark RDD 练习

1、创建一个1-10数组的RDD，将所有元素*2形成新的RDDscala> val rdd1 = sc.parallelize(1 to 10)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24scala> val rdd2 ...

2020-04-13 21:16:13 10852 2

原创 Spark 自定义UDF

●需求有udf.txt数据格式如下：Helloabcstudysmall通过自定义UDF函数将每一行数据转换成大写select value,smallToBig(value) from t_wordpackage cn.itcast.sqlimport org.apache.spark.SparkContextimport org.apa...

2020-04-13 21:04:58 8271 1

原创 Spark UDAF 自定义函数

需求有udaf.json数据内容如下{"name":"Michael","salary":3000}{"name":"Andy","salary":4500}{"name":"Justin","salary":3500}{"name":"Berta","salary":4000}求取平均工资●继承UserDefinedAggregateFunction方法...

2020-04-13 21:03:17 8655

原创 Spark 三种方式查询数据

1、分别给出一张表的数据：student_scores.txt字段是：班级编号,班级名称,入学日期,所属院系中文名学号,姓名,性别,所属班级编号,入学成绩170401011001 ,施礼义,男,0101,467170401011002 ,王旭,男,0101,518170401011003 ,肖桢,女,0101,509170401011004 ,吴佩东,男,0101,508170...

2020-04-13 21:01:37 11195 8

原创 MySql Data Manipulation Language 数据操纵语言 (DML)

员工表employee 建表语句： create table employee ( id int, name varchar(20), sex varchar(10), birthday date, salary float, resume text );数据： insert into employee va...

2020-04-13 10:21:19 8405 2

原创 MySql 单表查询练习

学生表students 建表语句： CREATE TABLE `students` ( `name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '姓名', `age` int(11) NULL DEFAULT NULL COM...

2020-04-13 09:53:11 8527 2

原创 Review HDFS 文件系统的容量

HDFS 文件系统的容量理解：将多个节点的容量汇总到一起拼接成一个大的文件系统，在一个节点上传数据，在其他的节点上都能够访问使用。图解：...

2020-04-12 11:14:03 9429

原创 Review Hadoop 的组成部分

hadoop 的组成部分HDFS管理者：NameNode作用：负责管理，管理集群内各个节点。负责管理整个文件系统的元数据（指的是数据的存放位置或存放路径）或名字空间辅助管理者：SecondaryNameNode作用：责辅助NameNode管理工作。工作者：DataNode作用：负责工作，进行读写数据。周期向NameNode汇报。负责管理用户的文件数据块(一个大的数...

2020-04-12 11:13:53 8619 2

原创 Review HDFS数据完整性

HDFS数据完整性数据在写入之后进行校验和的计算，DataNode周期性进行校验和计算，将计算结果与第一次的结果进行对比。若相同表示无数据丢失，若不相同表示数据有丢失，丢失进行数据恢复。数据读取之前对数据进行校验，与第一次的结果进行对比。若相同表示数据没有丢失，可以读取。若不相同表示数据有所丢失。到其他副本读取。...

2020-04-12 11:13:41 7988 1

原创 Review impala

impala的安装部署1、软件包的上传解压安装包大于4G，所以需要另行上传。每个节点需要优先安装nc yum install -y nc安装impala的节点至少需要有12G的剩余空间（5.1G 安装包，5.1G解压后的包）2、制作网络源将安装包解压后，配置成yum源3、安装impala在主节点(node03)安装yum install -y impala impala...

2020-04-12 11:13:22 7946 1

原创 Review HBase

hbase 的安装部署1、软件包上传解压2、配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-masters6、...

2020-04-12 11:13:10 8652 7

原创 Review Hbase记忆

1.HBase的基本介绍 a.Hbase是建立在hdfs之上的一个数据库，b.不支持join等SQL复杂操作c.支持的数据类型：byte[]，d.依靠横向扩展，一个表可以有上十亿行，上百万列。e.面向列(族)的存储和权限控制f.对于为空(null)的列，并不占用存储空间，是一个稀疏表。2.HBASE的适用场景海量数据、精确查询、快速返回海量数据：指...

2020-04-12 11:12:54 7860 1

原创 Review Flume

flume：负责数据的收集，采集传输，并将数据存储在大数据生态系统。数据采集：文件、文件夹、数据包，kafka.数据存储：HDFS，hbase, hive, kafkaXXX收集，采集，传输例如：扫码枪，打卡机，收割机，吸尘器Flume内部模块1、Source :与数据源对接，用于数据的收集，采集。2、Channel: 数据的传输（一个flumeAgent内部）3、Si...

2020-04-11 08:36:34 8395

原创 Review Hive 知识点

>## 什么是Hive?>>Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。>>## Hive的意义（最初研发的原因）?...

2020-04-11 08:29:10 9374 3

原创 Review MapReduce

计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架并行计算框架一个大的任务拆分成多个小任务，将多个小任务分发到多个节点上。每个节点同时执行计算Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算3、节点横向扩展4、移动程序到数据...

2020-04-11 08:23:32 7732 1

用户画像02：业务数据调研及ETL.md

整个用户画像（UserProfile）项目中，数据、业务及技术流程图表的结构数据库Database

2020-06-04

用户画像01：用户画像概念、项目概述及环境搭建.md

- **用户属性的研究侧重于显式地搜集用户特征信息**，主要体现在社会化标注系统领域，通过社会化标注系统搜集比较全面的用户信息，用于多方位的了解用户。

2020-06-04

用户画像系统_【标签体系】信息.xlsx

用户画像对某一类特定群体或对象的某项特征进行的抽象分类和概括用户画像方向目前的用户画像研究主要集中在三个方向上：用户属性、用户偏好和用户行为三个主要方面。

2020-06-04

大数据优化.pptx

大数据项目中优化方向 1 代码优化 2 软件系统配置优化 3 操作系统优化 4 硬件优化 5 网络优化集群的性能优化

2020-05-13

Scala文档.docx

scala是运行在JVM上的多范式(多种编程方法)编程语言，同时支持面向对象和面向函数编程早期，scala刚出现的时候，并没有怎么引起重视，随着Spark和Kafka这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘。

2020-04-13

Yarn日记.docx

什么是Yarn ：通用资源管理系统和调度平台 Yarn特点： 1、支持多计算框架 2、资源利用率高，运行成本低，数据共享。 Yarn的意义：降低了企业硬件的成本（多个集群变成一个集群），减少了资源的了浪费，运营成本低。

2020-04-03

Redis命令日记.docx

Redis是一个使用C语言编写的key-value开源的NOSQL存储系统。不支持SQL语句。redis数据存储在内存中，支持持久化（将数据写入硬盘）

2020-04-03

Kafka知识点.docx

Kafka生态系统四大角色，生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper

2020-04-03

1创建一个demo1的单例，在demo1中创建一个样例类名字为student1，成员变量为name:String, age:Int 创建主方法实例化student，并传参数（“xiaoming”,20）,打印输出student1对象到控制台创建一个demo2的单例，在demo2中创建一个样例类名字为student2，成员变量为name:String, age:Int 创建主方法实例化student2，并传参数（“xiaoming”,20）,修改student2对象的age=25,打印输出student2对象到控制台等等

2020-04-03

Spark笔记1.docx

什么是Spark？ Spark特点？Hadoop与Spark的对比？Spark运行模式？Spark安装部署 standalone集群模式启动

2020-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sublime-text-build-4143-mac

用户画像02：业务数据调研及ETL.md

用户画像01：用户画像概念、项目概述及环境搭建.md

用户画像系统_【标签体系】信息.xlsx

大数据优化.pptx

Scala文档.docx

Yarn日记.docx

Redis命令日记.docx

Kafka知识点.docx

Scala样例类练习.docx

Spark笔记1.docx

空空如也