纬度.du-CSDN博客

转载 sql-用户流失，回流问题

转载于:https://my.oschina.net/u/3400816/blog/1919468上次遇到一个需求是统计流失与回流用户。流失用户分为7日流失、14日流失、30日流失，n日流失的定义为到统计日期为止，连续n日没有游戏记录的用户即为统计日期当天的n日流失；回流用户也分为7日回流、14日回流、30日回流，n日回流的定义为在统计日期有游戏记录，在统计日期之前的最近一次游戏记录距离统计日...

2020-04-02 00:28:38 5383

原创窗口函数

窗口函数简介场景函数简介也称分析函数，OLAP函数(Online Anallytical Processing,联机分析函数)，窗口函数与分组聚合函数类似，但是每一行数据都生成一个结果。适用数据平台：hive,Spark,sql server, Oracle, mysql8.0,PostgreSQL等mysql8.0官方说明：link.说明：可以查看实例，有直观的感受；基本语法：<窗口函数> over (partition by <用于分组的列名> order by

2020-09-21 17:53:46 173

原创 Spark-RDD算子

Spark-算子简介转换算子(Transformations)行动算子(Actions)简介RDD 算子主要分为两类，一类为转换（transform）算子，一类为行动（action）算子，转换算子主要负责改变 RDD 中数据、切分 RDD 中数据、过滤掉某些数据等，并按照一定顺序组合。Spark 会将转换算子放入一个计算的有向无环图中，并不立刻执行，当 Driver 请求某些数据时，才会真正提交作业并触发计算，而行动算子就会触发 Driver 请求数据。这样设计的原因首先是避免无谓的计算开销，更重要的是

2020-08-31 18:11:19 825

原创 Hadoop系列组件端口总结

Hadoop系列组件端口总结1.Hadoop2.YARN3.Hive4.Hbase5.Zookeeper6.Spark1.Hadoop组件进程名称默认端口配置项(配置文件)说明HDFSNameNode8020fs.defaultFS(core-site.xml)接收Client连接的RPC端口，用于获取文件系统metadata信息。HDFSNameNode50070dfs.namenode.http-address(hdfs-site.xml)http服务

2020-06-04 22:21:40 448

原创 Anaconda部署使用

Anaconda部署使用简介下载安装基本使用简介Anaconda是一个包含180+的科学包及其依赖项的发行版本。其包含的科学包包括：conda, numpy, scipy, ipython notebook等。conda是包及其依赖项和环境的管理工具。官网：https://www.anaconda.com/下载安装1.下载地址：官方镜像：地址：https://repo.anaconda.com/archive/MiniConda:Anconda较小的发行版地址：https://repo.

2020-06-01 21:37:16 294

原创 linux系统mysql安装(rpm包方式)

rpm方式安装mysql安装卸载说明：linux操作系统平台安装1、查看系统中是否自带安装mysqlrpm -qa|grep mysql2、下载rpm包wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm3、安装下载好的rpm文件rpm -ivh mysql-community-release-el7-5.noarch.rpm(安装成功之后，会在/etc/yum.repos.d/文件夹下增加两个文件)

2020-05-21 23:17:48 203

原创 python离线环境安装包

python离线环境安装包背景解决办法背景因环境问题无法pip install * 在线安装解决办法本地安装whl文件注：whl文件本质是一个压缩包，其中包含了py文件，知以及经过编译的pyd文件1.下载whl离线文件到本地地址：https://pypi.org/https://www.lfd.uci.edu/~gohlke/pythonlibs/(推荐用这个地址下载whl文件，国内源，速度快。)2.cmd/cd 到存放目录pip install **.whl...

2020-05-08 21:23:08 250

原创 docker基本操作

docker基本使用简介基本概念基本操作一.镜像常用二.容器常用简介Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口，属于操作系统层面的虚拟化技术，由于隔离的进程独立于宿主和其它的隔离的进程，因此也称其为容器。官网：htt...

2020-04-17 23:50:00 111

原创 Hadoop HDFS 体系结构

Hadoop HDFS 体系结构简介体系结构相关概念读写流程客户端命令简介HDFS(Hadoop Distributed File System) Hadoop分布式文件系统，Hadoop体系底层的数据存储组件;最开始是作为Apache Nutch web搜索引擎项目的基础架构而开发,HDFS是Apache Hadoop Core项目的一部分,HDFS具有高容错，高吞吐，易扩展，高可靠等特征。...

2020-04-14 17:53:20 3363

原创 python解释器

python解释器简介原理类别简介注：Python语言从规范到解释器都是开源的官网地址：https://www.python.org/编写Python代码会得到一个包含Python代码的以.py为扩展名的文本文件。要运行代码，就需要Python解释器去执行.py文件(转换为机器可以执行的字节码 .pyc文件)。原理1.解释器将.py源码转化为字节码，在Python中为.pyc文件，在J...

2020-04-11 22:19:51 145

原创 Flume抽取mysql数据到hive

Flume抽取MySQL数据到hive1.环境说明2.脚本文件13.脚本文件21.环境说明注：集群环境为CDH6.01.1. 采用Apache版本FlumeCDH6.0版本测试不支持 flume-ng-sql-source 抽取mysql数据库注：mysql binlog 日志未开启所以采用flume-ng-sql-source插件项目地址：https://github.com/ke...

2020-04-10 22:13:43 1294 8

原创排序-归并排序

归并排序归并排序(MergeSort)是采用分治法的一个非常典型的应用。归并排序的思想就是先递归分解数组，再合并数组。将数组分解最小之后，然后合并两个有序数组，基本思路是比较两个数组的最前面的数，谁小就先取谁，取了后相应的指针就往后移一位。然后再比较，直至一个数组为空，最后把另一个数组的剩余部分复制过来即可。1.分析2.代码public class MergeSort { pu...

2020-04-10 19:44:20 66

原创 linux-进程相关命令

Liunx进程相关命令1.top命令指定固定的pidtop -p 13514查询指定进程的pidps -ef|grep zookeeper2.ps查看指定进程名或pid的占用ps -aux|grep zookeeperps -aux|grep 21813.查看更详细的内存占比cat /proc/13514/statusVmRSS为内存4.查看端口占用netstat -tu...

2020-04-09 23:28:59 120

原创排序-希尔排序

希尔排序希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因DL．Shell于1959年提出而得名。希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整个文件恰被分成一组，算法便终止。排序过程：将数组列在一个表中并对列分...

2020-04-09 13:42:47 129

原创排序-快速排序

快速排序快速排序（Quicksort），又称划分交换排序（partition-exchange sort），通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。步骤为：1.从数列中挑出一个元素，称为"基准"（pivot）；2.重新排序数列，所有...

2020-04-08 12:00:36 90

转载排序-插入排序

插入排序插入排序（Insertion Sort）是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。1.分析2.代码public class InsertionSort { public static void m...

2020-04-07 12:20:57 79

原创 Spark-RDD初识

Spark-RDD详解RDD简介RDD特征RDD数据存储模型RDD创建方式RDD简介RDD(Resilient Distributed Dataset)，表示弹性分布式数据集，它是spark最基本的数据抽象/数据结构，它代表了一个不可变、可分区、里面的元素可以被并行操作的集合。Dataset：数据集，可以理解成它是一个集合，集合中存储了很多数据Distributed：它的数据是进行了...

2020-04-06 14:21:03 296

原创 CDH6.0.0安装

简介：关于CDH和Cloudera ManagerCDH (Cloudera’s Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和...

2020-04-01 00:09:16 263

转载排序-选择排序

选择排序选择排序（Selection sort）是一种简单直观的排序算法。它的工作原理如下。首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。选择排序的主要优点与数据移动有关。如果某个元素位于正确的最终位置上，则它不会被移动。选择排序每次交换一对元素，它们当中至少有一...

2020-03-31 12:51:23 71

转载排序-冒泡排序

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2020-03-31 12:00:14 213

原创 JVM-内存模型(JMM)

一.简介：JMM（Java内存模型）本身是一种抽象的概念并不真实存在，它描述的是一组规则或规范，通过这组规范定义了程序中各个变量（包括实例字段，静态字段和构成数组对象的元素）的访问方式。JVM 内存区域主要分为:线程私有区域【程序计数器、虚拟机栈、本地方法区】线程共享区域【JAVA 堆、方法区】直接内存。线程私有数据区域生命周期与线程相同, 依赖用户线程的启动/结束而创建/销...

2020-03-31 11:20:08 201 1

原创 JVM-组成结构

一.简介：JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。引入Java语言虚拟机后，Java语言在不同平台上运行时不需要重新编译。Java语言使用Java虚拟机屏蔽了与具体平台相关的信息，使得Java语言编译程序只需生成在Java虚拟机上运行的目标代码（字...

2020-03-31 00:36:45 135

原创 Flume基本使用

简介：1.Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。2.Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中3.一般的采集需求，通过对flume的简单配置即可实现4.Flume针对特殊场景也具备良好的自定义扩展能力，因此，...

2020-03-28 11:09:36 702

原创 mysql : 表的导出和导入

表的导出和导入:SELECT ...... INTO OUTFILE 导出文本文件,该方法只能导出到数据库服务器上，并且导出文件不能已存在。MYSQL> SELECT ...... INTO OUTFILE filename [OPTIONS]MYSQL> SELECT * FROM test.person INTO OUTFILE "C:\person0.txt";# 将表...

2020-03-28 10:34:11 175

原创 dataX基本使用

简介：DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式，目前已开源，代码托管在github地址：https://github.com/alibaba/DataX一.DataX安装部署1.下...

2020-03-27 23:19:11 1194

原创 sqoop基本使用

简介：Sqoop是一种用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将数据从关系型数据库管理系统(RDBMS)(如MySQL或Oracle或大型机)导入Hadoop分布式文件系统(HDFS)，在Hadoop MapReduce中转换数据，然后将数据导出回RDBMS。Sqoop自动化了这个过程的大部分，它依赖于数据库来描述要导入的数据的模式。Sqoop使用MapR...

2020-03-27 22:27:19 575

dyfand的博客