算法·源码·API·纸上得来终觉浅_u010823625的博客-CSDN博客

算法·源码·API·纸上得来终觉浅

让积累成为一种习惯。

文章数：11 文章阅读量：5569 文章收藏量：22

作者: u010823625

让积累成为一种习惯。

展开

数仓基础·拉链表

数仓基础·拉链表1、真实场景下的拉链表1、真实场景下的拉链表在数据仓库的ODS层，有一张订单的增量数据表，按天分区，存放每天的增量数据在数据仓库的DW层，有一张订单的历史数据拉链表，存放订单的历史状态数据DROP TABLE IF EXISTS t_dw_orders_his_tmp;CREATE TABLE t_dw_orders_his_tmp AS SELECT orderid,createtime,modifiedtime,status,dw_start_date,dw_e

原创 2020-08-04 20:32:16 · 1487 阅读 · 0 评论
Python手推FM、DeepFM

Python手推FM、DeepFM1、FM1.1 交叉项求解1.2 代码2、DeepFM1、FM1.1 交叉项求解v=[v1v2v3]=[123456121]v={\left[ \begin{array}{ccc}v1\\v2\\v3\end{array} \right ]}={\left[ \begin{array}{ccc}1 & 2 & 3\\4 & 5 & 6\\1 & 2 & 1\end{array} \right

原创 2020-06-09 16:49:31 · 266 阅读 · 0 评论
Tensorflow Examples：Linear Regression、Logistic Regression、CNN

Tensorflow 入门级样例1、波士顿房价预测（Linear Regression by Tensorflow）2、MNIST手写数字识别（Logistic Regression by Tensorflow）3、MNIST手写数字识别（CNN by Keras）1、波士顿房价预测（Linear Regression by Tensorflow）import tensorflow as tffrom sklearn import datasetsfrom sklearn import prepro

原创 2020-05-16 15:34:11 · 254 阅读 · 0 评论
大数据常用组件：Redis

redis常用命令大全1、常用场景2、常用命令2.1 key的常用命令2.2 String的常用命令2.3 List的常用命令2.4 Set的常用命令2.5 Sort Set的常用命令2.6 Hash的常用命令3、例程1、常用场景2、常用命令基本类型：String、Hash、List、Set、Sorted Set2.1 key的常用命令命令描述keys *获取所有keyPEXPIRE key seconds设置过期时间PERSIST key清除过期时间

原创 2020-05-15 09:08:44 · 403 阅读 · 0 评论
Spark基础（4）：当你df.cache()时，你在cache啥？

Spark源码学习系列（4）：Spark存储大揭密Spark存储级别Spark存储级别存储级别描述NONE不进行数据存储MEMORY_ONLY存储到内存中（cache的级别）MEMORY_AND_DISK优先存储到存储中，内存不足，磁盘存储MEMORY_ONLY_SER将RDD中的数据进行序列化，RDD的每个partition会被序列化成一个字节数组MEMORY_AND_DISK_SER超出内存的分区存储到磁盘上DISK_ONLY存储到磁盘上

原创 2020-05-12 12:25:12 · 1491 阅读 · 0 评论
Spark基础（3）：Spark任务调度机制详解

Spark基础（3）：Spark任务调度机制详解1、调度策略1.1 FIFO1.2 FAIR2、数据本地性1、调度策略1.1 FIFO先比较作业优先级，再比较调度阶段优先级1.2 FAIR综合考量 runningTasks 值，minShare 值以及 weight 值2、数据本地性Spark中数据本地性优先级从高到低：PROCESS_LOCAL>NODE_LOCAL>NO_PREF>RACK_LOCAL>ANY级别概念PROCESS_

原创 2020-05-12 10:59:54 · 244 阅读 · 0 评论
Spark基础（2）：当你使用spark-submit提交程序后发生了什么？

Spark基础（2）：Spark运行流程1、基本概念2、当你使用spark-submit提交程序后发生了什么？2.1 例程2.2 Spark的运行流程2.2.1 原理2.2.2 Spark作业执行2.2.2.1 Stage（任务调度）2.2.2.1.1 任务调度划分2.2.2.1.2 任务调度执行1、基本概念Application（应用程序）Driver（驱动程序）ClusterManager（集群资源管理器）Worker（工作节点）Executor（执行进程）2、当你使用spark-s

原创 2020-05-12 09:44:21 · 540 阅读 · 0 评论
Spark基础（1）：RDD（以及宽窄依赖）是什么？

Spark源码学习系列（1）：RDD是什么？1、基本概念2、RDD编程接口2.1 Partitions（分片列表）2.2 PreferredLocation（分片优先位置）2.3 Dependencies（RDD依赖关系）2.3.1 OneToOneDependency2.3.2 ShuffleDependency2.3.3 例程2.4 Iterator（分区计算）2.4.1 mapPartition2.5 Partitioner（分片函数）2.5.1 HashPartitioner2.5.2 RangeP

原创 2020-05-11 20:11:51 · 170 阅读 · 0 评论
经典算法·求解：K-Means

经典算法·求解系列（3）1、K-Means1.1 K-Means的工作原理1.2 K的确定1.3 评估指标1.4 其他变种1、K-Means1.1 K-Means的工作原理初始化常数 k ，随机初始化 k 个聚类中心；重复计算以下过程，直到聚类中心不再改变；输出最终的聚类中心以及每个样本所属的类别。1.2 K的确定网格搜索1.3 评估指标轮廓系数1.4 其他变种...

原创 2020-05-04 17:42:08 · 241 阅读 · 0 评论
经典算法·求解：决策树

经典算法·求解系列（2）1、决策树1.1 前置知识1.1.1 纯度、信息熵1.1.2 信息增益1.1.3 信息增益率1.1.4 基尼系数1.2 代码（以CART为例）1.2.1 基尼系数1、决策树1.1 前置知识1.1.1 纯度、信息熵信息熵（entropy）：信息的不确定度信息熵越大，纯度越低。构造决策树的时候，会基于纯度来构建。1.1.2 信息增益1.1.3 信息增益率...

原创 2020-05-04 17:41:49 · 290 阅读 · 0 评论
经典算法·求解：逻辑回归

经典算法·求解系列（1）1、逻辑回归1.1 前置知识1.1.1 线性回归1.1.2 Activation Function1.1.3 Loss Function1.1.4 Optimizer1.1.5 Evaluation1.2 代码1.2.1 Activation Function1.2.2 Loss Function1.2.3 Optimizer1.2.4 Evaluation2、决策树2.1...

原创 2020-05-04 17:39:39 · 185 阅读 · 0 评论

算法·源码·API·纸上得来终觉浅

作者: u010823625

数仓基础·拉链表

Python手推FM、DeepFM

Tensorflow Examples：Linear Regression、Logistic Regression、CNN

大数据常用组件：Redis

Spark基础（4）：当你df.cache()时，你在cache啥？

Spark基础（3）：Spark任务调度机制详解

Spark基础（2）：当你使用spark-submit提交程序后发生了什么？

Spark基础（1）：RDD（以及宽窄依赖）是什么？

经典算法·求解：K-Means

经典算法·求解：决策树

经典算法·求解：逻辑回归