易长安-CSDN博客

原创一个例子简单阐述极大似然估计和贝叶斯估计的区别

极大似然估计和贝叶斯估计的区别及使用场景

2022-07-03 12:37:01 739

文章目录前言一、算法推导1.模型2.策略3.算法3.1 ID3（信息增益最大）3.2 C4.5 （信息增益率最大）3.3 CRAT（基尼系数最小）3.4 剪枝二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型四、优缺点1.优点2.缺点前言本文主要介绍一个常见的分类算法——决策树。决策树虽然简单，但是它的结果非常直观，容易理解和解释，并且它是很多集成模型的基学习器，在机器学习中具有重要的地位。一、算法推导李航老师的《统计学习方法》中提到，统计学习方法都是由模型

2020-10-25 15:46:04 517

转载 MySQL事务的四大条件

文章目录MySQL事务主要用于处理操作量大，复杂度高的数据。比如说，在人员管理系统中，你删除一个人员，你既需要删除人员的基本资料，也要删除和该人员相关的信息，如信箱，文章等等，这样，这些数据库操作语句就构成一个事务！一般来说，事务必须满足4个条件（ACID）：原子性、一致性、隔离性和持久性。（1）原子性（Atomicity）:又称为不可分割性，一个事务中的所有操作，那么全部完成，要么全部不完成，不会结束在中间某个环节。事务在执行过程中发生错误，会被回滚（Rollback）到事务开始钱的状态，就像这

2020-10-23 14:50:09 1286

原创一天一个统计小知识——大数定律和中心极限定理

文章目录前言一、大数定律二、中心极限定律前言面试被问到了大数定律，所以今天来聊一下统计学中的大数定律和中心极限定理。一、大数定律大数定律：如果统计数据足够大，那么事件出现的频率就等于它的概率，也即样本均值会收敛于总体期望（依概率收敛）。二、中心极限定律中心极限定律：任何分布的一系列的样本，他们的均值呈正态分布。比如我从分布F(X)里面抽出100组样本，这一百组样本的均值将会服从正态分布，它的期望为总体均，方差为总体方差。...

2020-10-23 13:24:39 1024

原创一天一个机器学习小知识——支持向量机

文章目录前言一、算法推导1.模型2.策略3.算法4.SVM的拓展4.1 软间隔4.2 核技巧二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言支持向量机（Support vector machines，SVM）是一种二分类模型（可以拓展至多分类）。它的基本模型是定义在特征空间上的间隔最大化的线性分类器。它跟感知机的联系是，感知机是满足分类条件的其中一个超平面，而SVM是最鲁棒的那个。一、算法推导1.模型SVM是在所

2020-10-20 22:31:38 540

原创一天一个机器学习小知识——类别不平衡问题的解决方法

文章目录前言一、改变阈值1.理论介绍2.代码实现二、抽样方法1.理论介绍1.1 欠采样1.2 过采样2.代码实现2.1 欠采样2.1 欠采样三、改变样本权重1.理论介绍2.代码实现总结前言类别不平衡是机器学习中经常遇到的问题，有时候类别不平衡会直接影响到模型的训练结果。这里介绍几种常见的缓解类别不平衡问题的方法。假设样本数较少的类为正类，反之为负类。一、改变阈值1.理论介绍比如逻辑回归可以写成如下形式，若y1−y>m+m−\frac{y}{1-y}>\frac{m^{+}}{m

2020-10-08 14:02:26 1295 1

原创一天一个机器学习小知识——线性判别分析

文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言前面几小节介绍的线性回归、Lasso、Ridge以及弹性网都是回归模型，但是现实生活中还是会有很多分类问题，因此本文就介绍一个机器学习中最常见的分类模型——逻辑回归。逻辑回归是最经典的分类模型之一，一方面，它保持了线性回归的可解释性，从参数的大小可以知道每个特征对结果的影响程度；另一方面，它的输出具有概率意义，可以为很多决策

2020-10-07 21:19:39 873

原创一天一个机器学习小知识——逻辑回归

文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言前面几小节介绍的线性回归、Lasso、Ridge以及弹性网都是回归模型，但是现实生活中分类问题往往也很常见，因此本文就介绍一个机器学习中最常见的分类模型——逻辑回归一、算法推导李航老师的《统计学习方法》中提到，统计学习方法都是由模型、策略和算法构成的，因此本文在算法推导也主要从这三部分进行展开讨论。1.模型虽然逻辑回

2020-10-07 15:41:25 835 1

原创一天一个机器学习小知识——Lasso、Ridge以及ElasticNet

文章目录前言一、算法推导1.1 Lasso模型1.2 Lasso策略1.3 Lasso算法2.1 Ridge模型2.2 Ridge策略2.3 Ridge算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言上一小节主要介绍了线性回归算法，并且在文章的末尾提到了它所存在的一些缺陷，事实上在线性回归的基础上稍作改进就可以很好的客服这些缺陷。因此本小节主要介绍线性回归的几个拓展模型：Lasso、Ridge以及ElasticNe

2020-10-06 17:54:27 3683

原创一天一个机器学习小知识——线性回归

文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言本栏目主要介绍机器学习中的算法模型，具体包含算法推导、应用场景、代码实现以及优缺点比较这几个模块。本文先介绍机器学习中最简单的一个算法模型——线性回归。一、算法推导李航老师的《统计学习方法》中提到，统计学习方法都是由模型、策略和算法构成的，因此本文在算法推导也主要从这三部分进行展开讨论。1.模型模型通俗来说就是最后要

2020-10-05 20:04:31 608 2

原创一天一个机器学习小知识——模型评估与选择

本节主要介绍机器学习中常用的一些模型评估方法以及模型性能度量指标。一、误差的分类当我们构建并且训练一个模型的时候，我们需要知道这个模型的效果怎么样，这时候就要引入“误差”的概念。机器学习中误差主要分为两种：（1）训练误差/经验误差：模型在训练集上的误差（2）测试误差/泛化误差：模型在测试集上的误差在实际应用中，我们主要关注的是泛化误差。对于经验误差很低，但是泛化误差很高的情况我们称之为“过拟合”，而经验误差和泛化误差都很高的情况我们称之为“欠拟合”...

2020-10-05 09:59:40 488

原创 Python在工作中的应用——把数据追加到原有工作表中，不覆盖原有数据

本文介绍一下如何把新数据追加到excel的某个sheet中，并且不覆盖原有数据。import xlwt,xlrdfrom xlutils.copy import copynew =xlrd.open_workbook('文件路径',formatting_info=True) # 这个是新数据old = xlrd.open_workbook('文件路径') #旧数据，也就是等会要把新数据追加到这里的old_copy =copy(old) #先将旧数据备

2020-08-09 18:32:59 3847

原创 Python在工作中的应用——自动发送和收取邮件

作为课代表，经常要做的两件事是：帮忙发作业和帮忙收作业，而且很多时候是通过邮件来完成的，如果手动一封一封的收取和发送就很浪费时间——人生苦短，我用Python。直接上代码，不想了解细节原理直接拉到最后，我封装成了两个函数，根据提示，输入参数，直接调用就行。亲测可行不想看细节这部分可以直接跳过，但是运行的时候要把这一块也粘贴进去。导入相关库import smtplib,sslfrom email.mime.multipart import MIMEMultipartfrom email.mime.

2020-08-09 17:05:43 1236 1

原创一天一个统计小知识——常见的几种概率分布

本文聊一下生活中常见的几种概率分布一、二项分布（1）来源：在说二项分布前，先介绍一下0-1分布。其实0-1分布就是n=1下的二项分布，即只进行一次事件试验，该事件发生的概率为p，不发生的概率为1-p。二项分布就是进行n次实验，恰好成功m次的概率。（2）具体表达：用 XXX~B(n,p)B(n,p)B(n,p)表示变量X服从二项分布。P(X=m)=Cnm×pm×(1−p)(n−m)P(X=m) = C_{n}^{m}×p^m×(1-p)^{(n-m)}P(X=m)=Cnm×pm×(1−p)(n−m)

2020-07-10 11:46:11 2877

原创一天一个统计小知识——3σ准则

今天来聊一下统计学中用于检测异常值的“3σ准则”什么叫3σ准则呢？其实它是用来粗略检测异常值的一种方法，类似的还有“1σ准则”和“2σ准则”，下面进行具体说明。在统计学中，如果一个变量服从正态分布，且它的均值是uuu, 标准差是σσσ,那么将有：（1）68%的数据会落在 uuu ± σ 内，即数据分布在处于(u−σu-σu−σ, u+σu+σu+σ)中的概率是0.68（2）95%的数据会落在 uuu ± 2σ 内，即数据分布在处于(u−2σu-2σu−2σ, u+2σu+2σu+2σ)中的概率是

2020-07-03 23:02:04 7979

原创一天一个统计小知识——辛普森悖论

本文介绍一下统计中一个常见的概念：“辛普森悖论”辛普森悖论是在说:在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。怎么理解这句话呢？下面使用一个小例子来进行具体声明。例子：鹅厂为了比较英雄联盟和王者荣耀这两款游戏哪个更受欢迎，分别抽取了1000个男生和1000个女生进行问卷调查，调查结果（假设英雄联盟和王者荣耀只能玩一个）如下表所示：发现了什么？单单从女生或者男生的角度来看，英雄联盟的好评率都是比王者荣耀高的，但是如果从整体来看

2020-07-02 23:19:44 1352

原创数据分析/运营——SQL面试题：如何求用户的最大连续登陆天数

本文介绍一个经典的面试题：如果求用户的最大连续登陆天数。题目描述：有一个用户登陆表，表中有两列，一列是userid,代表用户的id；另一列是sigindate,代表用户的登陆日期。现在要求每个用户的最大连续登陆天数。解题思路：对于每一个用户，首先求出它的日期排名ranking，然后再求出今天距离登陆日期的日期天数 dates ，拿这个天数减去 - 它的排名，得到一个辅助列 diff，然后求出diff的最大计数，即为用户的最大连续登陆天数。是不是看的很迷糊？最大计数？没事，下面对这个思路进行详细的

2020-06-28 08:47:01 9776 5

原创数据分析/运营——常用MySQL操作、函数

本文主要介绍MySQL常见的一些操作和函数。具体包括增删改查和数学函数、字符函数以及日期函数。（1）先说最重要的查找操作：1、select 的用法功能：打印语法：select 列名称 from 表名称 2、distinct的用法功能：去重语法：select distinct 列名称from 表名称 3、limit的用法功能：提取前几项语法：select 列名 from 表名称 limit n,m 或者 limit nlimit n,m表示提取从第n行开始，往后提取m

2020-06-21 22:59:49 994

原创数据分析/运营——MySQL的窗口函数用法

本文介绍几个MySQL常用的窗口函数下面以这个简单的数据表为例，对常见的几种窗口函数进行说明1、排序函数（1）Rank()功能：求出每个员工在它所属部门中的工资排名select *, rank() over(partition by DepartmentId order by Salary desc) as '排名'from Employee;得到结果如下：可以看到，rank()的效果和group by 有点像，也是先将数据按照某列进行聚合，不同的是，group by 聚合后，每一类

2020-06-16 08:07:31 1089

原创数据分析/运营——用户分层模型RFM

本文介绍一种常见的用户分层模型：RFM模型1、RFM模型介绍RFM是Rencency（最近一次消费）、Frequency（消费频率）、**Monetary（消费金额）**三个指标首字母组合，是衡量当前用户价值和进行用户分层的重要工具（1）Rencency：最近一次消费是指客户在平台最近一次消费和当前的时间间隔，理论上R越小的客户是价值越高的客户（2）Frequency：消费频率是指客户在固定时间内的购买次数（3）Monetary：消费金额是指一段时间内的消费金额2、使用RFM模型进行用户分类（

2020-06-12 09:55:23 2102

原创数据分析/运营——常用的业务收入模型

本文列举了目前常见的几种业务收入模型1、流量收入：流量收入主要以广告收入为主，平台通过提供广告位获得的收入。具体方式为商家付款推广，平台按照用户每次点击/访问进行收费。计算方式有CPC（Cost Perhaps Clik, 单次点击成本）和CPM（Cost Per Mille，千次曝光成本）。CPC = 广告流量 ∗*∗ 转化率 ∗*∗ 单次点击价格。广告流量：某事件段内浏览到该商家广告的用户量转化率：点击广告人数/广告流量单次点击价格：用户每次点击，广告主需向平台付的钱CPM = 广告流量

2020-06-12 09:48:48 6128 1

原创数据分析/运营——EXCEL数据透视表的使用

数据透视表（类似SQL的Groupby）数据透视表的功能：汇总、分类、求和、均值、计数等操作接下来介绍一下它的简单用法：假设我要求每一个人的总收入、平均收入、最高收入、最低收入首先点击“插入”，再点击“数据透视表”，红色框框是你让选择参与计算的区域，蓝色框框是生成的数据透视表的位置，你可以让它生成一个新的文件，也可以显示在原有的文件上。在右侧选择透视的字段，就可以求和每一个人的收入总和。接下来求平均收入、最高收入、最低收入首先把鼠标放到左上角的”收入“处，摁住鼠标左键，拖动“收入”到右下角的”

2020-06-12 09:10:14 1198

原创数据分析/运营——常用EXCEL函数（IF、SUMIF、VLOOKUP）

列举几个常用的EXCEL函数（1）IF函数语法：IF（判断条件， “条件成立时的返回值”， “条件不成立时的返回值”）示例：IF（1=2， “等式成立”， “等式不成立”），返回“等式不成立”也可以多重嵌套IF(判断条件1, “条件1成立时返回值”,F(判断条件2, “条件2成立时返回值”,IF(判断条件3, “条件3成立时返回值”, “条件3不成立时返回值”)))N = 95IF(N<60, “不及格”,IF(N<70, “及格”,IF(N<80, “中等”,IF

2020-06-12 08:37:45 8089

原创数据分析/运营——指标异常分析

针对某一个指标下降了，我们应该怎么分析？（1）确定数据的真实性，即该指标下降是否属于正常的波动范围，考虑到产品的周期性或者市场的波动性，只要指标的波动控制在一定范围内，那么该指标的下降是可接受的，没必要进行进一步处理（2）指标缺失属于异常波动，那么先将该指标进行拆解，然后分析它的成分指标的异常情况，得出指标初步的异常原因（3）对（2）中得到的原因进行数据验证下面是两个分析实例例1：某家餐馆的线上收入下降了，要怎么进行分析（1）确定该指标的下降幅度是否属于正常波动范围内（2）如果属于异常下降，将

2020-06-10 22:36:52 1874

原创数据分析/运营——重要业务指标小结

常规指标一、活跃度指标（1）DAU、WAU、MAU，一个产品日活、周活、月活。以欢乐斗地主为例，日活是每天打开该APP的用户数二、用户粘性指标（1）留存率。包括次留、7留、30留。次留率：第一天打开欢乐斗地主并且第二天也打开欢乐斗地主的人数/第一天打开欢乐斗地主的人数三、渗透率（1）某功能板块的使用人数/该产品的日活。欢乐斗地主商城渗透率=进入商城的用户数/DAU四、转化率（1）针对某个连贯路径，使用下一个节点的用户数/使用上一个节点的用户数。欢乐斗地主转化率：打开APP——进入房间——参加

2020-06-10 09:40:57 1028

原创数据分析/运营——数据异常的排查方法

数据分析-数据异常的排查方法数据异常主要从两个大方向进行排查：①数据是否有问题？②业务是否有问题？第一个方向：数据是否有问题，即数据是否是真的异常？（1）亲自查看数据准确性，不要人云亦云（2）时间轴拉长，看是近期异常（3个月）还是历史异常（3）看和该指标关联的其他指标或其他核心指标是否也异常（4）找到一个关键任务（产品/数据），提前沟通一下第二个方向：如果数据是真的异常，怎么排查？最大概率法归类（找出所有的可能，讲它们出现的概率进行排序）（1）假期效应：开学季、暑期、四大节、当地节日（2）

2020-06-09 22:31:34 5634

qq_43019258的博客