hwq317622817-CSDN博客

原创 windows上安装postgresql和postgis

安装

2023-01-04 16:12:36 578

原创 MapGIS基础开发环境搭建（IGSserver的安装、开发人员资格申请）

mapgis二次开发

2022-11-07 16:22:30 639 2

原创 elementUI 实现form表单中label文字两端对齐

elementUI form表单label两端对齐

2022-09-16 16:03:15 2991 2

原创 vscode代码格式管理插件prettier-Code formatter安装和设置

prettier-Code formatter

2022-08-20 16:38:40 2075

原创 express脚手架安装

搭建express项目脚手架的过程

2022-08-13 18:07:52 743

原创 Spark（第八节）SparkStreaming接收flume数据，kafka数据，SparkStreaming的窗口操作

目录SparkStreaming接收flume数据接收flume的sparkSink的数据接收flume的avroSink的数据小结SparkStreaming接收kafka数据基于at least once消费的模式接收Kafka数据基于at most once消费的模式接收Kafka数据基于exactly once消费的模式接收Kafka数据小结SparkStreaming的窗口操作窗口操作的概念代码实现小结SparkStreaming接收flume数据接收flume的sparkSink的数据第一

2021-02-21 19:06:21 387

原创 Spark（第七节）SparkStreaming介绍，DStream介绍，SparkStreaming接收socket数据、文件数据、自定义数据源数据、RDD队列数据案例

SparkStreaming介绍什么是Spark StreamingSpark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据

2021-02-20 19:40:11 422

原创 Spark（第六节—2）Spark数据分析案例之求TopN，Spark的udf与udaf函数

Spark数据分析案例之求TopN思路将数据读成DataFrame，并将DataFrame映射成临时表，然后用sparkSession.sql的方式用sql语句来求TopN。数据和目标数据是如下的json数据，可以直接读成DataFrame，求每个clazz中score的前两名{“name”:“a”,“clazz”:1,“score”:80}{“name”:“b”,“clazz”:1,“score”:78}{“name”:“c”,“clazz”:1,“score”:95}{“name”:“

2021-02-20 13:36:30 267

原创 Spark（第六节—1）Spark中直接执行hive查询，Spark整合hive，SparkSQL的使用案例，Spark读取MySQL，Spark写入MySQL

Spark中执行hql创建maven工程，pom如下：<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version></properties><dependencies> <dependency> <groupId>org.scala-lang</groupId&gt

2021-02-20 13:26:25 650

原创 Spark（第五节） RDD、DataFrame、DataSet的介绍与比较，创建DataFrame和DataSet，三者之间互相转换，scala代码创建和使用DataFram

目录RDD、DataFrame、DataSet的介绍与比较概述RDD基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别创建DataFrame读取文本文件创建DataFrame第一种方式：通过RDD配合case class进行转换DF第二种方式：通过sparkSession构建DataFrame读取json文件创建DataFrame读取parquet列式存储格式文件创建DataFrame创建DataSet第一种方式创建DataSet第二种方式创建DataSet第三种方式创建DataS

2021-02-19 19:41:23 509

原创 Spark（第四节—2）Spark运行原理与架构、Spark容错机制checkpoint、基于SparkContext的常见文件类型的读写

Spark运行原理与架构参考Spark运行原理【史上最详细】【转载】。Spark容错机制checkpoint参考彻底理解 spark 的checkpoint 机制【转载】。基于SparkContext的常见文件类型的读写文本文件输入输出scala> sc.textFile("./README.md")res6: org.apache.spark.rdd.RDD[String] = ./README.md MapPartitionsRDD[7] at textFile at <con

2021-02-19 13:19:08 124

原创 Spark（第四节—1）Spark实现ngixn日志的pv、uv统计，Spark实现ip地址转为地点的统计

Spark实现ngixn日志的pv、uv统计首先创建maven项目，pom如下<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version></properties><dependencies> <dependency> <groupId>org.sc

2021-02-18 19:54:09 352

原创 Spark（第三节）RDD概念介绍、常见Transformation算子，常见Action算子

目录RDD概念介绍什么是RDD为什么会产生RDDRDD的属性RDD弹性RDD特点RDD算子介绍常见RDD的Transformation算子map(func)filter(func)flatMap(func)mapPartitionsWithIndex(func)sample(withReplacement, fraction, seed)takeSampleunion(otherDataset)intersection(otherDataset)distinct([numTasks]))partitionB

2021-02-18 19:36:32 459

原创 Spark（第二节）Spark角色介绍，Spark提交任务参数解释，分别基于spark-shell、scala、java开发单词计数方法

目录Spark角色介绍Spark提交任务参数解释spark任务提交说明一些基本选项参数提交说明基于spark-shell开发单词计数方法第一步：准备本地文件第二步，进入spark-shell第三步：开发scala单词统计代码基于scala开发spark的单词计数方法第一步：创建maven工程并导入jar包第二步：创建scala的object并开发scala代码第三步：准备hdfs上的文件第四步：代码打包提交到spark集群运行基于java开发spark的单词计数方法Spark角色介绍Spark架构图如下

2021-02-17 20:32:47 251

原创 Spark（第一节—2）Spark四种模式（local、standAlone、standAlone(HA)、on-yarn）分别的安装、spark-shell使用和提交jar包

目录local模式Spark安装使用spark-shell测试提交jar包standAlone模式Spark安装使用spark-shell测试提交jar包standAlone(HA)模式Spark安装进入spark-shell测试提交jar包on-yarn模式Spark安装on-yarn模式提交jar包之两种方式的介绍spark on yarn client模式提交spark on yarn cluster模式提交任务测试提交jar包spark on yarn client模式提交spark on ya

2021-02-17 19:58:50 341

原创 Spark（第一节—1）Spark简介、Spark运行模式介绍、Spark源码编译

目录Spark简介什么是SparkSpark特点spark的架构模块spark的主要架构模块介绍spark的运行角色介绍spark的运行模式Spark源码编译下载源码准备linux环境，安装必须软件解压spark源码修改源码配置文件开始编译Spark简介什么是SparkSpark官网：http://spark.apache.orgSpark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成

2021-02-17 19:03:24 187 2

原创 Scala（第五节）actor并发编程、文件操作和网络请求、隐式转换和隐式参数、Akka并发编程、Akka模拟简易Spark通信

目录actor并发编程什么是Scala Actor概念java并发编程与Scala Actor编程的区别Actor的执行顺序发送消息的方式Actor实战第一个例子第二个例子第三个例子第四个例子第五个例子通过actor实现多文件单词计数scala当中的文件操作和网络请求读取文件当中每一行的数据读取词法单元和数字读取网络资源、文件写入、控制台操作读取网络资源文件写入操作控制台交互操作scala当中的序列化scala当中的正则表达式隐式转换和隐式参数隐式转换隐式参数隐式转换方法作用域与导入隐式转换的时机隐式转换

2021-02-16 20:56:19 274

原创 Scala（第四节）特质、模式匹配和样例类、泛型

目录特质（Trait）认识Trait将trait作为接口使用在trait中定义具体的方法在trait中定义具体field在trait中定义抽象field特质（Trait）认识Trait在scala中，Trait可以视为一种“轻便”且功能多样的父类，它可以作为接口、抽象类使用。它具有以下优点：不需要构造方法，所以继承Trait的任何类无需要理会Trait的构造，Trait强调的是方法和属性的继承。可以多继承，一般的类只能单继承。可以包含抽象方法、抽象属性、具体方法、具体属性。将trait作为

2021-02-15 19:18:24 233

原创 Scala（第三节）高阶函数、类、对象、类的继承

目录Scala高阶函数认识高阶函数柯里化类（class）类的定义与创建类的构造器对象（Object）认识Object伴生类与伴生对象伴生对象的apply方法object的main方法类的继承Scala中继承(extends)的概念Scala中override 和 super 关键字Scala中isInstanceOf 和 asInstanceOfScala中getClass 和 classOfScala中使用模式匹配进行类型判断Scala中protectedScala中调用父类的constructorSca

2021-02-15 16:33:45 97

原创 Scala（第二节）Scala数据结构，Scala常用集合，集合的映射、reduce、折叠、拉链、迭代器

目录Scala数据结构数据结构特点Scala常用集合数组元组tupleMap列表（List）Set集合队列Queue集合元素与函数的映射集合的reduce操作集合的折叠操作集合的拉链操作集合的迭代器Scala数据结构数据结构特点Scala同时支持可变集合和不可变集合，不可变集合从不可变，可以安全的并发访问。两个主要的包：不可变集合：scala.collection.immutable可变集合： scala.collection.mutableScala优先采用不可变集合，对于几乎所有的集

2021-02-14 18:28:44 199

原创 Scala（第一节）Scala简介、Scala编程环境搭建、数据类型、流程控制语句、方法、函数、懒值加载

目录Scala简介什么是Scala为什么要学ScalaScala编程环境搭建1、安装JDK2、安装ScalaWindows安装Scala编译器Linux安装Scala编译器Scala开发工具安装Scala简介什么是Scalascala官方网址：http://www.scala-lang.orgScala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。http://www.scala-lan

2021-02-14 18:09:51 183

原创数据仓库项目（第六节）电商业务数仓指标分析实例、拉链表的创建和使用

目录电商业务数仓分析实例GMV什么是GMV转化率什么是转化率ADS层之新增用户占日活跃用户比率ADS层之用户行为漏斗分析品牌复购率什么是品牌复购率DWS层——用户购买商品明细表（宽表）ADS层——品牌复购率结果表品牌复购率结果输出到MySQL订单拉链表什么是拉链表为什么要做拉链表拉链表形成过程如何使用拉链表拉链表制作过程图拉链表制作过程步骤0：初始化拉链表，首次独立执行步骤1：先制作当日变动（包括新增，修改）每日执行步骤2：先合并变动信息，再追加新增信息插入到临时表中步骤3：把临时表覆盖给拉链表电商业务

2021-02-13 19:57:49 1041

原创数据仓库项目（第五节）数仓理论、电商业务数仓介绍与创建

目录数仓理论表的分类实体表维度表事务型事实表周期型事实表同步策略实体表同步策略维度表同步策略事务型事实表同步策略周期型事实表同步策略范式理论范式概念函数依赖三范式区分关系建模与维度建模关系模型维度模型雪花模型、星型模型和星座模型电商业务数仓介绍电商业务流程电商表结构电商常识（SKU、SPU）订单表（order_info）订单详情表（order_detail）商品表用户表商品一级分类表商品二级分类表商品三级分类表支付流水表电商业务数仓创建业务数据生成业务数据导入数仓sqoop导入数据的脚本ODS层表的同步策略

2021-02-08 19:37:00 501

原创数据仓库项目（第四节）用户行为数据分析

目录需求一：用户活跃主题DWS层每日活跃设备明细每周活跃设备明细每月活跃设备明细DWS层加载数据脚本ADS层活跃设备数ADS层加载数据脚本需求二：用户新增主题ADS层（每日新增设备表）需求三：用户留存主题用户留存概念需求描述DWS层DWS层（1,2,3,n天留存用户明细表）ADS层留存用户数留存用户比率需求一：用户活跃主题DWS层目标：统计当日、当周、当月活动的每个设备明细每日活跃设备明细1）建表语句drop table if exists dws_uv_detail_day;create

2021-02-08 18:22:57 415

原创数据仓库项目（第三节）用户行为数据数仓建设、hive UDF和UDFTF函数、数仓分析前置知识

用户数据数仓建设hive安装参考hadoop离线阶段（第十三节）数据仓库、hive简介、hive安装和hive的三种交互模式。创建ODS层表和数据导入创建表前，先准备好数据库，create database gmall;use gmall;创建启动日志表ods_start_log1、创建表CREATE EXTERNAL TABLE `ods_start_log`(`line` string) PARTITIONED BY (`dt` string);2、将采集到hdfs上的数据导入loa

2021-02-06 20:42:01 320

原创数据仓库项目（第二节）采集数据

目录Flume采集到Kafka自定义Flume拦截器配置Flume conf编写控制Flume启停的脚本创建Kafka topic和启动消费者Flume采集Kafka消费者的数据并下沉到HDFS编写Flume confFlume启动停止脚本Flume采集到KafkaFlume的安装参考hadoop离线阶段（第十六节—1）flume的介绍、安装、使用和自定义拦截器Kafka的安装参考Kafka（第一节）Kafka的介绍、Kafka集群搭建和常用kafka命令行自定义Flume拦截器1、创建maven

2021-02-04 20:05:07 162

原创数据仓库项目（第一节）项目介绍、模拟数据产生

目录项目介绍数据仓库概念项目需求分析项目框架技术选型系统架构图设计系统数据流程设计模拟数据产生埋点数据基本格式事件日志数据商品点击(display)商品详情页(newsdetail)商品列表页(loading)广告(ad)消息通知(notification)用户前台活跃(active_foreground)用户后台活跃(active_background)评论（comment）收藏（favorites）点赞（praise）错误日志数据启动日志数据模拟数据产生创建Maven工程Bean类公共字段Bean启动日

2021-02-01 20:01:02 671 1

空空如也

空空如也