u010823625
让积累成为一种习惯。
展开
-
数仓基础·拉链表
数仓基础·拉链表1、真实场景下的拉链表1、真实场景下的拉链表在数据仓库的ODS层,有一张订单的增量数据表,按天分区,存放每天的增量数据在数据仓库的DW层,有一张订单的历史数据拉链表,存放订单的历史状态数据DROP TABLE IF EXISTS t_dw_orders_his_tmp;CREATE TABLE t_dw_orders_his_tmp AS SELECT orderid,createtime,modifiedtime,status,dw_start_date,dw_e原创 2020-08-04 20:32:16 · 1487 阅读 · 0 评论 -
Python手推FM、DeepFM
Python手推FM、DeepFM1、FM1.1 交叉项求解1.2 代码2、DeepFM1、FM1.1 交叉项求解v=[v1v2v3]=[123456121]v={\left[ \begin{array}{ccc}v1\\v2\\v3\end{array} \right ]}={\left[ \begin{array}{ccc}1 & 2 & 3\\4 & 5 & 6\\1 & 2 & 1\end{array} \right原创 2020-06-09 16:49:31 · 266 阅读 · 0 评论 -
Tensorflow Examples:Linear Regression、Logistic Regression、CNN
Tensorflow 入门级样例1、波士顿房价预测(Linear Regression by Tensorflow)2、MNIST手写数字识别(Logistic Regression by Tensorflow)3、MNIST手写数字识别(CNN by Keras)1、波士顿房价预测(Linear Regression by Tensorflow)import tensorflow as tffrom sklearn import datasetsfrom sklearn import prepro原创 2020-05-16 15:34:11 · 254 阅读 · 0 评论 -
大数据常用组件:Redis
redis常用命令大全1、常用场景2、常用命令2.1 key的常用命令2.2 String的常用命令2.3 List的常用命令2.4 Set的常用命令2.5 Sort Set的常用命令2.6 Hash的常用命令3、例程1、常用场景2、常用命令基本类型:String、Hash、List、Set、Sorted Set2.1 key的常用命令命令描述keys *获取所有keyPEXPIRE key seconds设置过期时间PERSIST key清除过期时间原创 2020-05-15 09:08:44 · 403 阅读 · 0 评论 -
Spark基础(4):当你df.cache()时,你在cache啥?
Spark源码学习系列(4):Spark存储大揭密Spark存储级别Spark存储级别存储级别描述NONE不进行数据存储MEMORY_ONLY存储到内存中(cache的级别)MEMORY_AND_DISK优先存储到存储中,内存不足,磁盘存储MEMORY_ONLY_SER将RDD中的数据进行序列化,RDD的每个partition会被序列化成一个字节数组MEMORY_AND_DISK_SER超出内存的分区存储到磁盘上DISK_ONLY存储到磁盘上原创 2020-05-12 12:25:12 · 1491 阅读 · 0 评论 -
Spark基础(3):Spark任务调度机制详解
Spark基础(3):Spark任务调度机制详解1、调度策略1.1 FIFO1.2 FAIR2、数据本地性1、调度策略1.1 FIFO先比较作业优先级,再比较调度阶段优先级1.2 FAIR综合考量 runningTasks 值,minShare 值以及 weight 值2、数据本地性Spark中数据本地性优先级从高到低:PROCESS_LOCAL>NODE_LOCAL>NO_PREF>RACK_LOCAL>ANY级别概念PROCESS_原创 2020-05-12 10:59:54 · 244 阅读 · 0 评论 -
Spark基础(2):当你使用spark-submit提交程序后发生了什么?
Spark基础(2):Spark运行流程1、基本概念2、当你使用spark-submit提交程序后发生了什么?2.1 例程2.2 Spark的运行流程2.2.1 原理2.2.2 Spark作业执行2.2.2.1 Stage(任务调度)2.2.2.1.1 任务调度划分2.2.2.1.2 任务调度执行1、基本概念Application(应用程序)Driver(驱动程序)ClusterManager(集群资源管理器)Worker(工作节点)Executor(执行进程)2、当你使用spark-s原创 2020-05-12 09:44:21 · 540 阅读 · 0 评论 -
Spark基础(1):RDD(以及宽窄依赖)是什么?
Spark源码学习系列(1):RDD是什么?1、基本概念2、RDD编程接口2.1 Partitions(分片列表)2.2 PreferredLocation(分片优先位置)2.3 Dependencies(RDD依赖关系)2.3.1 OneToOneDependency2.3.2 ShuffleDependency2.3.3 例程2.4 Iterator(分区计算)2.4.1 mapPartition2.5 Partitioner(分片函数)2.5.1 HashPartitioner2.5.2 RangeP原创 2020-05-11 20:11:51 · 170 阅读 · 0 评论 -
经典算法·求解:K-Means
经典算法·求解系列(3)1、K-Means1.1 K-Means的工作原理1.2 K的确定1.3 评估指标1.4 其他变种1、K-Means1.1 K-Means的工作原理初始化常数 k ,随机初始化 k 个聚类中心;重复计算以下过程,直到聚类中心不再改变;输出最终的聚类中心以及每个样本所属的类别。1.2 K的确定网格搜索1.3 评估指标轮廓系数1.4 其他变种...原创 2020-05-04 17:42:08 · 241 阅读 · 0 评论 -
经典算法·求解:决策树
经典算法·求解系列(2)1、决策树1.1 前置知识1.1.1 纯度、信息熵1.1.2 信息增益1.1.3 信息增益率1.1.4 基尼系数1.2 代码(以CART为例)1.2.1 基尼系数1、决策树1.1 前置知识1.1.1 纯度、信息熵信息熵(entropy):信息的不确定度信息熵越大,纯度越低。构造决策树的时候,会基于纯度来构建。1.1.2 信息增益1.1.3 信息增益率...原创 2020-05-04 17:41:49 · 290 阅读 · 0 评论 -
经典算法·求解:逻辑回归
经典算法·求解系列(1)1、逻辑回归1.1 前置知识1.1.1 线性回归1.1.2 Activation Function1.1.3 Loss Function1.1.4 Optimizer1.1.5 Evaluation1.2 代码1.2.1 Activation Function1.2.2 Loss Function1.2.3 Optimizer1.2.4 Evaluation2、决策树2.1...原创 2020-05-04 17:39:39 · 185 阅读 · 0 评论