皓皓家的-CSDN博客

原创数据分析常用模型

一、RFM模型RFM模型是客户关系管理(CRM)模型中的一种，是衡量客户价值和客户创利能力重要工具和手段。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况，依据三项指标划分八类客户价值。最近一次消费(Recency)：表示用户最近一次消费距离现在的时间。消费时间越近的客户价值越大。1年前消费过的用户肯定没有1周前消费过的用户价值大。消费频率(Frequency)：消费频率是指用户在统计周期内购买商品的次数，经常购买的用户也就是熟客，价值肯定比偶尔来一次

2021-02-19 17:10:26 2263

原创数据分析常用指标

一、产品运营指标AARRR模型：用户分析模型，反应出不同阶段中用户参与行为的深度和类型，是一个典型的漏斗结构。用户获取（Acquisition）：通过渠道推广投放等让用户接触到产品。用户活跃（Activation）：用户接触到产品之后需要将其转化为活跃用户。用户留存（Retention）：判断用户的粘性，是衡量产品是否可持续发展的重要指标。营收获利（Revenue）：对于运营而言，拉新、活跃、留存都是手段，获利才是目标。自传播（Refer）：基于社交网络的病毒式传播已经成为了成本低廉的获客新途

2021-02-06 16:08:00 1562

原创消费者运营-阿里系三大模型

阿里系3大模型，FAST 和AIPL 、GROW ，这三种模型的实施都离不开阿里数据银行所提供的用户信息。一、 AIPL模型：首次实现品牌人群资产定量化、链路化运营AIPL模型是一个可以把品牌在阿里系的人群资产定量化运营的模型。将品牌人群分为四类：品牌认知人群(Aware)：15天内消费者相对被动与品牌接触，包括：曝光&点击(如被阿里妈妈广告曝光过或点击过阿里妈妈广告等)、浏览(如浏览过品牌旗舰店或品牌商品等）、观看(如观看过淘宝短视频或直播）品牌兴趣人群(Interest)：15天内消费

2021-02-03 11:42:53 5324

原创数据分析思维

数据分析思维1.三种核心思维结构化：将分析思维结构化：将论点归纳和整理，将论点递进和拆解，将论点完善和补充核心论点：寻找金字塔的顶端，可以是假设，问题，预测，原因结构拆解：自上而下，将核心论点层层拆解成分论点，上下之间呈因果或依赖关系MECE：相互独立，完全穷尽，论点之间避免交叉和重复，分论点要尽量完善验证：不论核心论点或者分论点，都应该是可量化的，可验证的Created with Raphaël 2.2.0开始核心论点结构拆解MECE验证结束例如：某公司8月的销量和去年同比下降了20%

2021-02-02 18:07:54 632

原创 SQL语言——存储过程

一、什么是存储过程存储过程（Stored Procedure）是存储在数据库目录中的一段声明性SQL语句，是为了完成特定功能的SQL语句集。用户可以通过指定存储过程的名称以及参数来调用执行，是数据库SQL语言层面的代码封装与重用。二、存储过程的优缺点优点1.存储过程可以封装，隐藏复杂的商业逻辑2.存储过程可以接受参数并回传值3.存储过程对任何的应用程序都是透明和可重用的，将数据库接口暴露给所有的应用程序，以便开发人员无需开发存储过程已存在的功能。4.存储的程序是安全的，可以向访问数据库存储

2020-09-24 14:41:15 633

原创 MySQL索引

索引介绍索引是什么索引是帮助数据库高效获取数据的数据结构，通俗讲：数据库索引好比是一本书的目录，能够加快数据库的查询速度。索引往往是存储在磁盘上的文件中，可以存储在单独的索引文件中，也可以和数据一起存储在数据文件中。我们通常所说的索引包括：唯一索引、组合索引、聚集索引、覆盖索引、前缀索引等，默认是B+树组织结构。索引的优势和劣势优势：1.在检索上，可以提高数据库检索效率，降低数据库的IO成本2.在排序上，可以通过索引降低数据库的排序成本，降低CPU消耗劣势：1.索引会占据磁盘空间

2020-08-02 14:27:02 180

原创 SQL语言——视图(view)的作用

什么是试图视图是一张虚拟表，封装了底层与数据表的接口，相当于一张表或多张表的数据结果集。是一种允许用户通过视图访问数据的安全机制。

2020-06-15 17:11:23 5860

原创统计学——几种常见的假设检验

1、什么是假设检验？假设检验(hypothesis testing)，又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检...

2020-04-22 17:50:37 30705 1

原创 (2)学习笔记——构建用户画像

一、用户画像的准则用户画像建模是个系统的工程，需要解决三个问题：用户从哪儿来：统一标识用户ID，方便后续进行跟踪用户是谁：对用户进行标签化，方便对用户行为进行理解用户到哪儿去：将用户画像与业务关联，提升转化率，降低流失率1.统一化统一用户的唯一标识，用户唯一标识是整个用户画像的核心设计唯一标识可以从这些项中选择：用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID ...

2020-04-01 09:51:23 939

原创 SQL语言——开窗函数

1.什么是开窗函数？开窗函数与聚合函数计算方式一样，开窗函数也是对行集组进行聚合计算，但是它不像普通聚合函数那样每组只返回一个值，开窗函数可以为每组返回多个值。开窗函数的语法为：over(partition by col_1 order by col_2)窗口函数over( )指定一组行，开窗函数计算从窗口函数输出的结果集中各行的值。开窗函数不需要使用group by 就可以对数据进行分...

2020-03-18 15:19:08 659

原创 (1)学习笔记——数据分析全景图

数据分析的三个重要组成部分数据采集数据采集采集过程，常用的数据源包括：开源数据源、爬虫抓取、日志采集、传感器等常用的自动抓取数据分工具有：八爪鱼、搜集客、火车采集器等Python爬虫：Selenuim、lxml、Scrapy、phantomjs数据挖掘数据挖掘基本流程：商业理解→数据理解→数据准备→模型建立→模型评估→上线发布数据挖掘十大算法：(1)分类算法：C4.5、朴素贝叶...

2020-02-17 22:59:53 457

原创机器学习——模型参数调优

一个模型是否适用或者效果如何很大程度上取决于超参数的设置，通过对超参数进行调优可以优化模型，提高模型性能。超参数调优主要有以下几种方法：1、网格搜索（grid search）Grid search 是一种暴力的调参方法，通过遍历所有可能的参数值以获取所有所有参数组合中最优的参数组合。如果采用较大的搜索范围以及较小的步长,网格搜索有很大概率找到全局最优值。然而,这种搜索方案十分消耗计算资源和...

2020-01-10 11:24:11 1696

原创机器学习——模型评估

前言当创建好一个机器学习模型之后，我们需要评估这个模型的性能好坏，以确定模型是否可用，在sklearn中的metrics模块提供了各种模型评估方法。对分类模型和回归模型，我们需要使用不同的方法对模型进行评估。1、分类模型评估对于分类模型，主要有以下几种评估指标：准确率（accuracy）正确分类的样本数占所有样本数的比例accuracy=ncorrectntotalaccura...

2020-01-02 17:39:39 459

原创机器学习——主成分分析（PCA）

1、PCA的思想主成分分析（Principal Component Analysis）是一种最常用的数据降维手段。将大量变量转化成一组很少的不相关变量，这些不关变量称为主成分，并且尽可能地保留原始数据集的信息。假如我们的数据集是nnn维的，共有mmm个数据KaTeX parse error: Expected '}', got 'EOF' at end of input: …,\cdots,x...

2019-12-23 16:06:38 630

原创机器学习——聚类算法（clustering）

1、什么是聚类？通俗地讲，聚类就是将不带任何标签的数据分成不同的组，是一种典型的无监督机器学习算法，聚类的难点：难以评估和调参。用两张图来理解分类和聚类的区别：分类：聚类：2、K-means聚类k-means算法是经典的聚类算法之一，在不带标签的多维数据集中寻找确定数量的簇。以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。几个重要的基本概念：K值：...

2019-12-20 18:24:14 2520

原创机器学习——支持向量机（Support Vector Machine）

1、什么是支持向量机？支持向量机（Support Vector Machine)是一种非常强大的、灵活的基于监督的机器学习算法。通俗地讲，标准的支持向量机是一种二元分类的算法。其基本模型定义为特征空间上的间隔最大的线性分类器。在学习支持向量机之前有几个重要的概念：线性可分(Linearly Separable)：在数据集中，如果可以找出一个超平面，将两组数据分开，那么这个数据集叫做线性可...

2019-12-20 15:23:23 2318

原创机器学习——贝叶斯算法(Bayes)

1、从一个例子来了解贝叶斯？假设一个学校里面人数总数为U，其中60%的学生为男生，40%的学生为女生，男生全部穿长裤，女生有一半穿长裤一半穿短裤正向概率：随机选择一个学生，穿长裤的概率和穿裙子的概率分别是多大逆向概率：迎面走来一个穿长裤的学生，推断其是女生的概率是多大穿长裤的人数：U∗p(boy)∗p(pants∣boy)+U∗p(girl)∗p(pants∣girl)U*p(boy)*p...

2019-12-19 15:25:22 2033

原创机器学习——数据预处理（Preprocessing）

1、缺失值处理删除包含缺失值的一整列当该列种的大部分数据都缺失时可采用该方式，如果只有个别数据缺失，直接删除整列会导致大量信息丢失填充缺失值往缺失值中填入相关数据，例如：列均值、中位数等填充值往往比直接删除整列数据有更好的效果扩展填充直接填充缺失值往往和实际的值之间有所差别，加入一列记录原始数据是否缺失可能会对预测结果有更好的效果2、分类变量的预处理在使用分类变量（特征...

2019-12-18 17:35:35 3169

原创机器学习——随机森林（Random Forest)

1、随机森林（random forest）简介随机森林是一种集成算法（Ensemble Learning），它属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩，主要归功于“随机”和“森林”，一个使它具有抗过拟合能力，一个使它更加精准。集成算法的目的：让机器学习的效果更好，单个不行，群殴走起集成方法：B...

2019-12-18 17:02:43 891

原创机器学习——决策树(Decision Tree)

1、什么是决策树？

2019-12-18 15:41:30 467

原创机器学习——正则化（Regularization）

1、欠拟合与过拟合欠拟合模型不能很好的描述数据，不具备足够的灵活性来适应数据的左右特征模型在验证集的表现与在训练集的表现类似，都不理想过拟合模型具有足够的灵活性近乎完美地适应了数据的所有特征，但过多地学习了数据的噪音，在适应数据所有特征的同时也适应了随机误差模型在验证集的表现远远不如在训练集的表现图片来源于：https://www.cnblogs.com/jianxinzhou...

2019-12-17 17:32:13 3882

原创机器学习理解总结

数组的切片和索引返回的都是原始数组的视图，在视图上的操作都会使原数组发生改变数组的索引一维数组的索引类似python列表二维数组，可在单个或者多个轴上完成切片...

2019-12-17 16:00:59 274

原创机器学习——逻辑回归（Logistic Regression）

决策树

2019-12-17 14:59:10 257

原创机器学习——线性回归（Linear Regression）

从一个例子了解线性回归数据：工资和年龄目标：预测银行会贷款多少钱工资年龄贷款额度40002520000800030700005000283500075003350000120004085000自变量(特征)：工资(X1)、年龄(X2)因变量：贷款额度(y)假设θ1\theta_1θ1是年龄参数，θ2\theta_2...

2019-12-16 17:37:50 200

原创统计学——认识数据

数据属性数据属性可以是标称的、二元的、序数的、数值的标称的数据标称属性又可以看作是分类的对于标称属性，平均值和中位数没有意义，属性最常出现的值，众数是有意义的例如：婚姻状况（单身、已婚、离异、丧偶）二元的数据二元属性也是一种标称属性，只有２个类别或状态：０或１其中０代表该属性不出现，１代表属性出现如果两种状态对应True和False的话，那二元数据也称为布尔数据例如：性别（男、...

2019-10-16 22:12:07 1142

原创 Python——初识NumPy库

NumPy库numpy库为python提供了高性能数组与矩阵运算能力。入门numpy库需要掌握以下内容：ndarray：数组的创建和属性数组选择：数组的切片和索引数组运算：数组的各类运算方法和使用数组存取：数组的存储和读取方法数组的创建和属性创建数组通过array函数创建ndarray单/多维数组import numpy as npdata1 = [1,2,3,4]dat...

2019-10-15 16:34:27 273

weixin_37861936的博客