buracag_mc-CSDN博客

原创 A/B-test显著性检验

同步至：https://www.runblog.online/2019/03/18/ab-test-significance-test/前言################################################################### 本文是我在实习期间老大要求出的，故整理发布到博客上，欢迎大家拍砖！#### 另外，注释内容及部分公式内...

2017-07-09 21:30:15 54767 26

翻译【Python】大规模电影推荐

同步至https://www.runblog.online/2019/03/20/a-simple-collaborative-filtering-framework/简介推荐系统把我们从洪水般泛滥的信息中解放出来，为我们制定了个性化的信息流。网易云音乐、电子商务平台等都从推荐系统中获益颇多。推荐系统的实现是如此简单，但是在数据量稀疏师很容易产生怪异的结果和过拟合。最简单最容易理解的方...

2017-04-12 16:03:01 8611 16

同步于Buracag的博客《剑指Offer》中的一些常见练习题，包含二叉树、链表以及其他的一些常见算法练习题；最近又系统性地做了下，大致整理了一下解题思路，均用Python实现，持续更新中…文章目录1. 二叉树1.1 定义树节点1.2 根据序列生成一颗树1.2.1 二叉树序列化和反序列化1.3 前中后序遍历1.3.1 前序遍历1.3.2 中序遍历1.3.3 后序遍历1.4 BFS 和 DFS1...

2019-09-11 14:11:07 562

原创【Spark】模型选择和调优

同步于Buracag的博客介绍如何使用MLlib的工具来调整ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和pipelines中的超参数。文章目录1. 模型选择(亦称超参数调优)2. 交叉验证3. 训练集-验证集划分1. 模型选择(亦称超参数调优)ML中的一项重要任务是模型选择，或使用数据来查找给定任务的最佳模型或参数。这也称为调整。可以针对单个estimat...

2019-09-10 14:56:46 601

原创【Spark】频繁项集挖掘

同步于Buracag的博客挖掘频繁项目，项目集，子序列或其他子结构通常是分析大规模数据集的第一步，这是数据挖掘多年来一直活跃的研究课题。可以参考一下维基百科中关于关联规则学习的基础知识。文章目录1. FP-Growth1. FP-GrowthFP-growth算法在Han等人的文章中描述，挖掘频繁模式而没有候选生成，其中“FP”代表频繁模式。给定数据集，FP-growth的第一步是计算...

2019-09-09 17:47:56 1473

原创【Spark】协同过滤

同步于Buracag的博客协同过滤通常用于推荐系统。这些技术旨在根据user-item关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤，其中users和items由一小组可用于预测缺失条目的潜在因子（latent factors）描述。 spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因素。 spark.ml中的实现具有以下参数：numBlocks，是users和...

2019-09-09 17:36:08 740

原创【Spark】聚类分析

同步于Buracag的博客本节主要讲Spark ML中关于聚类算法的实现。示例的算法Demo包含：K-means、LDA、高斯混合模型(GMM)等。文章目录1. K-means1.1 输入1.2 输出2. 隐狄利克雷分布(Latent Dirichlet Allocation, LDA)3. 二分K-means(Bisecting K-means)4. 混合高斯模型(Gaussian Mixt...

2019-09-04 19:29:24 1517

原创【Spark】分类和回归算法-回归

同步于Buracag的博客本节主要讲Spark ML中关于回归算法的实现。示例的算法Demo包含：线性回归、广义线性回归、决策树回归、随机森林回归、梯度提升树回归等。文章目录1. 线性回归(Linear regression)2. 广义线性回归(Generalized linear regression)3. 决策树回归(Decision tree regression)4. 随机森林回归(R...

2019-09-04 18:18:53 1065

原创【Spark】分类和回归算法-分类

同步于Buracag的博客本节主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含：LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。文章目录1. Logistic regression1.1 二分类LR1.2 多分类LR2. 决策树分类器3. 随机森林分类器4. 梯度提升树分类器5. 多层感知器分类器6. 线性支持向量机7. One...

2019-09-03 10:37:59 1108 1

原创【Spark】特征工程2-Transformers

同步于Buracag的博客Spark MLlib中关于特征处理的相关算法，大致分为以下几组：提取(Extraction)：从“原始”数据中提取特征转换(Transformation)：缩放，转换或修改特征选择(Selection)：从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing，LSH)：这类算法将特征变换的各个方面与其他算法相结合。...

2019-09-02 13:50:01 438

原创【Spark】特征工程1-Extractors

同步于Buracag的博客Spark MLlib中关于特征处理的相关算法，大致分为以下几组：提取(Extraction)：从“原始”数据中提取特征转换(Transformation)：缩放，转换或修改特征选择(Selection)：从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing，LSH)：这类算法将特征变换的各个方面与其他算法相结合。...

2019-09-02 11:08:01 344

原创【Spark】Pipelines

同步于Buracag的博客在本节中，我们将介绍ML Pipelines的概念。 ML Pipelines提供了一组基于DataFrame构建的统一的高级API，可帮助用户创建和调整实用的机器学习流程。文章目录1. 管道中的主要概念1.1 DataFrame1.2 Pipeline 组件1.2.1 Transformers1.2.2 Estimators1.2.3 Pipeline组件的属性1....

2019-08-30 13:54:29 224

原创深广度搜索手写实现与networkx对比

同步于Buracag的博客前面项目在做一个遍历搜索的时候，有用到深度/广度搜索的相关知识；原理很简单，不再拾人牙慧了哈；这篇文章主要是将我自己简单实现的深广度搜索分享出来并与Python networkx模块中的已有实现做一个简单对比。1. 手写实现1.1 网络的定义这一步最主要的属性是node_neighbors，理解成与一个node有连接边(edge)的所有nodes。class...

2019-08-30 13:41:40 1146 2

原创信息论2-交叉熵和散度

同步于Buracag的博客主要总结了交叉熵、KL散度、JS散度和wasserstein距离(也称推土机距离，EMD)的相关知识，其中EMD的直观表示可以参见下图：1. 交叉熵对应分布为p(x)p(x)p(x)的随机变量，熵H(p)H(p)H(p)表示其最优编码长度。**交叉熵（Cross Entropy）**是按照概率分布qqq的最优编码对真实分布为ppp的信息进行编码的长度，交叉熵定...

2019-08-30 11:33:28 428

原创信息论1-熵

同步于Buracag的博客信息论（Information Theory）是数学、物理、统计、计算机科学等多个学科的交叉领域。信息论是由Claude Shannon 最早提出的，主要研究信息的量化、存储和通信等方法。这里，“信息”是指一组消息的集合。假设在一个噪声通道上发送消息，我们需要考虑如何对每一个信息进行编码、传输以及解码，使得接收者可以尽可能准确地重构出消息。在机器学习相关领域，信息论也...

2019-08-30 11:20:12 441

原创数学优化3-拉格朗日乘数法与KKT条件

同步于Buracag的博客主要介绍一下数学优化中的拉格朗日乘数法和KKT条件，其实在拙文中已经有关于KKT条件的简要介绍和自己的个人总结，这里再一起回顾一下。拉格朗日乘数法（Lagrange Multiplier）是约束优化问题的一种有效求解方法。约束优化问题可以表示为(1)min⁡xf(x)subjecttohi(x)=0,i=1,...,mgj(x)≤0,j=1,...,n\min...

2019-08-27 15:27:05 505

原创数学优化2-优化算法

同步于Buracag的博客优化问题一般都是通过迭代的方式来求解：通过猜测一个初始的估计x0x_0x0，然后不断迭代产生新的估计x1,x2,...xtx_1, x_2, ... x_tx1,x2,...xt，希望xtx_txt最终收敛到期望的最优解x∗x^∗x∗。一个好的优化算法应该是在一定的时间或空间复杂度下能够快速准确地找到最优解。同时，好的优化算法受初始猜测点的影响较小，通过迭...

2019-08-09 16:05:54 651

原创数学优化1-数学优化的类型

同步于Buracag的博客**数学优化（Mathematical Optimization）**问题，也叫最优化问题，是指在一定约束条件下，求解一个目标函数的最大值（或最小值）问题。数学优化问题的定义为：给定一个目标函数（也叫代价函数） KaTeX parse error: Expected 'EOF', got '\cal' at position 1: \̲c̲a̲l̲{A} → \Bbb...

2019-08-09 15:59:11 1144

原创概率论2-随机过程

同步于Buracag的博客;音尘杂记随机过程（Stochastic Process）是一组随机变量XtX_tXt的集合，其中ttt属于一个索引（index）集合TTT。索引集合TTT可以定义在时间域或者空间域，但一般为时间域，以实数或正数表示。当t为实数时，随机过程为连续随机过程；当t为整数时，为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。...

2019-06-25 18:10:09 693

原创概率论1-随机事件和概率

同步于Buracag的博客;音尘杂记主要回顾概率论中关于样本空间、随机事件和常见概率分布的基础知识。1. 样本空间样本空间是一个随机试验所有可能结果的集合。例如，如果抛掷一枚硬币，那么样本空间就是集合{正面，反面}。如果投掷一个骰子，那么样本空间就是{1, 2, 3, 4, 5, 6}。随机试验中的每个可能结果称为样本点。有些试验有两个或多个可能的样本空间。例如，从52 张扑克牌中随机抽...

2019-06-25 17:02:00 1128

原创微积分2-常见函数的导数

同步于Buracag的博客;音尘杂记在微积分1中已经附上了一个常见函数形式的导数，下文主要是关于向量函数及其导数，以及在机器学习和神经网络中常见的Logistic函数、Softmax函数的导数形式。1. 向量函数及其导数2. 按位计算的向量函数及其导数假设一个函数f(x)f(x)f(x)的输入是标量xxx。对于一组KKK个标量x1,...,xKx_1, ... , x_Kx1,...,...

2019-06-25 16:02:57 1023

原创微积分1-导数

同步于Buracag的博客;音尘杂记微积分1，主要回顾关于微积分中关于导数的相关知识。错误之处，还望诸君不吝指教。1. 导数基础导数（Derivative）是微积分学中重要的基础概念。对于定义域和值域都是实数域的函数f:R→Rf : \mathbb{R} \to \mathbb{R}f:R→R，若f(x)f(x)f(x)在点x0x_0x0的某个邻域△x\triangle x△x内，极限...

2019-06-19 20:23:11 1138

原创线性代数2-矩阵

同步于Buracag的博客;音尘杂记线性代数2，主要回顾关于矩阵的相关知识。错误之处，还望诸君不吝指教。1. 线性映射**线性映射（Linear Mapping）**是指从线性空间V 到线性空间W的一个映射函数f:V→Wf : V \to Wf:V→W，并满足：对于VVV中任何两个向量uuu和vvv以及任何标量ccc，有两个有限维欧式空间的映射函数f:Rn→Rmf: \mathbb{R}...

2019-06-19 20:01:32 614

原创线性代数1-向量和向量空间

同步于Buracag的博客;音尘杂记后续几篇笔记主要想回顾整理一下需要用到的数学基础知识，主要包括了线性代数、微积分、概念论、数学优化和信息论等内容。相对比较基础，权当复习回顾完善整个知识体系结构。错误之处，还望诸君不吝指教。1. 向量标量（Scalar）是一个实数，只有大小，没有方向。而向量（Vector）是由一组实数组成的有序数组，同时具有大小和方向。例，一个n维向量a 是由n个有序实数...

2019-06-19 19:52:40 2729

原创分位数回归简介

分位数回归简介同步于音尘杂记;Buracag的博客最近在做一个比较有意思(难搞…)的项目。大致介绍一下相关背景：根据历史的一个工作情况(历史表现，也就是有多少人做了多少工作量)，以及未来的一个预估工作量(预测值)，我们需要预估一个合理的人员投入;一言概之，根据历史表现和预测件量预估人员投入。时序问题？咋一看，这不就是一个时序问题嘛！人力投入如下：Yt=f(Tt,St,Ct,It)Y_t...

2019-06-01 15:04:40 14031 1

原创 Logistic Loss函数

同步于音尘杂记前面在浏览sklearn中关于Logistic Regression部分，看到关于带正则项的LR目标损失函数的定义形式的时候，对具体表达式有点困惑，后查阅资料，将思路整理如下：文章目录1. sklearn文档中的LR损失函数2. LR损失函数2.1 logistic基础知识2.2 旧思路2.3 新思路3. 思考1. sklearn文档中的LR损失函数先看sklearn对于LR...

2019-04-26 17:51:20 12549

原创 python基础 - 定义类的相关知识

同步与音尘杂记主要介绍了在python中，抽象类的定义、多态的概念、类中属性的封装以及类中常见的修饰器。文章目录1. 抽象类1.1 NotImplementedError1.2 abctractmethod2. 多态概念3. __属性封装3.1 私有静态属性、私有方法3.2 私有对象属性3.3 私有属性不被继承4. 类中的常见修饰器4.1 classmethod4.2 staticmetho...

2019-04-14 16:07:17 284

原创单层感知器为什么不能解决异或(XOR)问题

同步于音尘杂记单层感知器为什么不能解决异或问题(XOR)问题？给出两个思路去考虑这个小问题最近翻到了自己在印象笔记中学习记录的一些知识点，后续准备系统地整理放在自己的博客上，还请各位不吝指教。文章目录1. 感知器模型2. 单层感知器模型算法概述3. 线性不可分问题4. "与"、"或"、"非"、"异或问题的证明1. 感知器模型感知器模型是美国学者罗森勃拉特（Frank Rosenbla...

2019-04-12 19:42:29 15382 1

原创 AIC和BIC相关知识

同步于音尘杂记文章目录1. 模型拟合优度检验2. 调整R square3. AIC和BIC1. 模型拟合优度检验最基础的一个模型拟合优度的检验量就是R square(方程的确定系数)。已知一组样本观测值 (Xi,Yi)(X_i, Y_i)(Xi,Yi),其中i=1,2,3,…,n得到如下样本回归方程：Yi^=β0^+β1^Xi\hat{Y_i} = \hat{\beta_0} + ...

2019-04-08 20:46:31 13884 2

原创利用numpy.vectorize提升计算速度

同步于https://www.runblog.online/2019/03/18/increase-calculation-speed-with-numpy-vectorize/前言在实际项目中，对超大矩阵进行计算或者对超大的DataFrame进行计算是一个经常会出现的场景。这里先不考虑开发机本身内存等客观硬件因素，仅从设计上讨论一下不同实现方式带来的性能差异，抛砖引玉。项目中有这样一个需...

2019-03-22 19:13:09 4325 5

原创 LR算法(基础及核心概念)

前言首先需要清楚的是，LR（Logistic Regression）虽然是回归模型，但却是经典的分类方法。为什么分类不用SVM呢？我们对比一下SVM，在二分类问题中，如果你问SVM，它只会回答你该样本是正类还是负类；而你如果问LR，它则会回答你该样本是正类的概率是多少~文章主要内容如下： LR的理论基础LR的参数求解过程正则化

2017-08-27 15:29:17 55237 2

原创 EM算法(基础及核心概念)

从Jensen不等式以及极大似然估计开始说起，整理了EM算法的基础知识、核心概念以及部分推导过程，希望对大家有些许帮助。

2017-08-20 17:55:20 1506

原创 SVM推导过程注解(一)

前言支持向量机(Support Vector Machine)的原理其实比较简单，书本以及网上优秀教程都比较多；但是涉及到对偶问题以及KKT条件的讲解上，很多都是一笔带过了，让很多初学者比较疑惑(当然，包括我=_=)。故我结合学习过程将详细的对偶问题以及KKT条件的推导整理写出来，权当SVM推导过程的相关注解。希望对大家有所帮助，不对之还处望大家指正。

2017-08-06 12:01:03 2387 4

原创 SVM -- R的演示及应用示例

基于R对SVM算法中常见的线性可分下的支持向量分类、线性不可分下的支持向量分类以及多分类的支持向量分类进行了简单演示以及应用示例。包括了详细的函数解读以及可视化结果分析。

2017-07-30 22:30:56 14520

原创【Python】聚类算法应用 -- 广告投放效果的离线评估

利用Python写了一个离线的广告投放效果评估的脚本。除了最基础的统计与展现函数之外，最核心的部分是指标构建与算法分析。由于投放的keyword太多且没有标签，所以我采用的是无监督学习中的K-Means算法，写了一个调用SQL的查询类，传入对应的city、start_time、end_time、platform、engine_type等参数以获得相应的训练数据集。最后根据训练集输出各城市的投放效果评估。

2017-07-30 14:57:31 4134 15

原创聚类算法--K值估计及效果评估

对聚类分析算法重温一遍，补充了两个比较关键的步骤：1).利用肘部法则估计参数数目;2).利用轮廓系数评估聚类算法的优劣这些Python都有现成的轮子，只需传入相应的数据集即可。

2017-07-22 12:34:48 12010 3

原创近邻分析 -- KNN

在传统统计学中一般是假设数据满足某种分布假设，然后明确设定输出变量与输入变量的函数形式;最后根据数据估计未知参数，进而根据函数关系进行预测。但是在实际应用中，或者在输入变量较多，样本量较大的情况下，要求出具体的函数是非常困难的。对此，可采用数据挖掘中非常经典而有效的方法--近邻分析。本文，介绍了近邻算法的基础知识及核心概念。

2017-07-15 16:32:30 6163

原创聚类算法--K-Medoids（基于R的应用示例）

一个有极大值的对象可能相当程度上扭曲数据的分布，所以k-means算法对于孤立点是敏感的。不采用簇中对象的平均值作为参照点，可以选用簇中位置中心的对象，即medoid。k-medoids 聚类算法的基本策略是：首先为每个簇随意选择选择一个代表对象；剩余的对象根据其与代表对象的距离分配给近的一个簇。然后反复地用非代表对象来替代代表对象，以改进聚类的质量。最后利用R来做一个关于K-Mediods算法的简单应用示例演示。

2017-07-08 23:54:34 8246 2

原创聚类算法--K-Means（基于R的应用示例）

对于前面所讲的聚类算法，利用R来做一个关于K-Means算法的简单应用示例。

2017-07-02 17:58:31 18104

原创聚类算法（基础及核心概念）

聚类分析是数据挖掘中比较常见和基础的方法；本篇文章简要介绍了聚类分析算法的基础知识以及核心概念~~.

2017-07-01 11:01:22 8527 1

数据挖掘概念与技术中文版第三版 - Jiawei Han，Micheline Kamber【高清版】

机器学习实战 - Peter Harrington 【扫描版】

空空如也