自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 基于MySQL的淘宝用户行为分析

该文目录一、分析背景二、分析目的三、理解数据四、提出相关问题1、相关问题2、分析框架五、数据清洗1、选择子集2、数据类型修改3、重复值检查4、缺失值处理5、一致性处理6、异常值处理六、分析过程1、纵向分析之流量情况1)整体流量情况——访客数UV、访问量PV、平均访问深度(即平均访问量PV/UV):2)局部流量情况——每天PV和每天UV、每小时PV和每小时UV2. 纵向分析之转化情况1)复购率2)回购率3)用户总行为漏斗4)独立访客行为漏斗3.基于时间维度了解用户的行为习惯1)按日分析用户的行为习惯2)按小时

2020-08-18 21:36:14 1266

原创 DW第五次打卡——SVM

支持向量机算法(Support Vector Machine,SVM)SVM 硬间隔原理SVM 软间隔SMO 求解SVM代码设计SVM:所谓“支持向量”是指那些在间隔区边缘的训练样本点(即会遇到有些点很接近分割面,所以找个最优分割面),“机”是指算法。就是要找到具有最大间隔的分隔面,实际上是解决的是一个最优分类器设计的问题。这是一种二分类模型,它基本模型是定义在特征空间上的间隔最大的...

2020-04-29 21:16:41 370

原创 DW第四次打卡——条件随机场CRF

条件随机场CRF理解条件随机场最好的办法就是用一个现实的例子来说明它。假设你有许多关于小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会时拍的,那就打上开会的标签。问题来了,你准备怎么干?一个简单直观的办法就是,不管这些...

2020-04-27 17:18:05 250

原创 DW打卡第三次——EM算法

EM算法前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。...

2020-04-25 17:43:15 618

原创 DW打卡第二天——朴素贝叶斯

朴素贝叶斯相关概念(生成模型、判别模型)先验概率、条件概率贝叶斯决策理论贝叶斯定理公式极值问题情况下的每个类的分类概率下溢问题如何解决零概率问题如何解决?优缺点sklearn参数详解,Python绘制决策树1. 相关概念最通俗的理解,嘻嘻!判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概...

2020-04-23 21:42:19 256

原创 DW打卡第一次——线性回归

线性回归内容包括五方面,get之后便可开始实践啦1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3、优化方法(梯度下降法、牛顿法、拟牛顿法等)4、线性回归的评估指标5、sklearn参数详解1、线性回归的原理进而我们可以得到线性回归的一般形式:有数据集 {(????1,????1),(????2,????2),…,(????????,????????)} ,其中, ????????=(????????1;????????2;????????3;…;????????..

2020-04-21 12:19:10 628

原创 建模与调参+模型结果融合

一、建模与调参1.线性回归模型线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。训练模型的过程其实就是根据训练集的这些(X,Y)样本来求出合适的权重w, 然后对新的测试集X预测相应的Ytest,这个Ytest其实就是我们想要的答案。这就是这部分的逻辑。# 导入之前处理好的数据(我之前数据特征工程这块做...

2020-04-04 20:33:21 2904

原创 与特征工程大战之特征选择

特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解介绍几种常用的特征选择方法,它们各自的优缺点和问题:1、去掉取值变化小的特征 Removing features with low variance这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征...

2020-04-01 21:32:36 303

原创 特征工程

特征工程(Feature Engineering):将数据在转换为能更好的表示潜在问题的特征,从而提高机器学习性能。1. 数据理解目的:探索数据,了解数据,主要在 EDA 阶段完成。1.1. 定性数据:描述性质a) 定类:按名称分类——血型、城市b) 定序:有序分类——成绩(A B C)1.2. 定量数据:描述数量a) 定距:可以加减——温度、日期b) 定比:可...

2020-03-28 20:52:53 489

原创 在Windows环境下anconda(python)中xgboost安装

先在网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 中下载whl文件,注意一定要下载跟自己当前安装Python版本一致的whl文件。至于怎么知道版本号,我用的是jupyter notebook,然后输入import sysprint(sys.version)显示的是3.7.3 (default, Apr 24 2019, 15...

2020-03-26 15:40:50 323

原创 python模块安装问题:no matching distribution found for lightgbm

在安装lightgbm时,报错no matching distribution found for lightgbm。看了很多解决问题的博客,亲测通过该法可以解决。pip install lightgbm --default-timeout=100 -i https://pypi.tuna.tsinghua.edu.cn/simple只需更换国内安装源便可解决问题。...

2020-03-26 14:58:55 2048 3

原创 数据的探索性分析(EDA)

数据的探索性分析(EDA)新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;全新的 ...

2020-03-24 21:26:16 756

原创 ML小白打卡第三天(补充1)

非线性支持向量机与核函数异常点造成的线性不可分

2020-02-23 11:15:38 108

原创 ML小白打卡第三天(补充)

为何传不了10M的图片(不开心),手写笔记SVM优化问题目前在桌面上w和伽马只依赖于训练数据中对应于μi>0的样本点(xi,yi)而其他样本点对w和伽马无影响。...

2020-02-20 21:20:18 146

原创 ML小白打卡第三天(SVM)

SVM:所谓“支持向量”是指那些在间隔区边缘的训练样本点(即会遇到有些点很接近分割面,所以找个最优分割面),“机”是指算法。就是要找到具有最大间隔的分隔面,实际上是解决的是一个最优分类器设计的问题。目的该方程使得margin最大,两条虚线到分割面的距离相等为d, 2d=margin. 两条虚线上的样本点即为支持向量。如第二个例子,把z改写成x3,最后得到的线性方程中γ即7. wT为超平...

2020-02-20 14:48:23 169

原创 单层神经网络理解

https://zhuanlan.zhihu.com/p/87382745

2020-02-18 09:56:20 311

原创 正则项补充

假如参数w是一维的向量,把w的L1范数在x-y轴里展示的结果就是上面的这幅图。如果我们在线性回归的基础上联合使用了此两个正则,这个模型就是非常著名的ElasticNet。由于这个模型超出了我们的大纲,不在这里细讲,但如果对这块感兴趣,可以去看一下具体的文章: https://web.stanford.edu/~hastie/Papers/B67.2%20(2005)%20301-3...

2020-02-16 20:18:51 169

原创 ML小白打卡第二天(补充)

如果假定给定的数据是线性可分的,这时候使用逻辑回归模型参数会变得无穷大。why?下图中的上面一个坐标上的数据,是完全线性可分的,我们叫做线性可分;但是下面坐标上的圆圈和叉所表示的数据是不能完全分开的,肯定会存在一定的误差的,所以线性不可分,叫做非线性可分。这其中有个问题就是当给定的数据线性可分的时候,逻辑回归的参数会趋向于无穷大。If data linearly separable , ...

2020-02-16 19:58:10 290

原创 ML小白打卡第一天(补充)

根据大数定理,一旦样本个数越来越多,这些误差会慢慢服从正态分布。这就是最小二乘最核心的假设!

2020-02-16 14:05:45 155

原创 梯度下降小结

梯度下降的算法能保证找到局部最优值,但无法保证找到全局最优值。不同的参数初始化找到的局部最优不一样。对于凸优化函数,局部最小值就是全局最小值,不会遇到这个问题。这是凸函数的性质。补充一下凸函数:(在机器学习领域,一般都是用这个定义,和高数不一样哦)凹函数的话把<=改成>=即可...

2020-02-15 16:38:11 240

原创 ML小白打卡第二天

LR二分类逻辑回归目前不能再简化了。那这里的w和b到底如何求出来呢? 这是优化算法的主要职责。逻辑回归没法通过导数设为0求解。这时候可以考虑迭代式的优化算法。 其中一个最经典的迭代式算法叫做梯度下降法。 这种算法的核心是通过不断迭代的方式来求解函数的最优解。对于梯度下降法,有一个重要的参数η叫做学习率(learning rate),它控制着每一次迭代的程度。学习率越大,学...

2020-02-15 16:32:12 198

原创 ML小白打卡第一天

走马观花之后,又回来补理论啦线性回归最小二乘法:也叫最小平方法,误差的平法和最小(其最小值的求法为求偏导,令其分别为零,求解即可),即为最佳函数匹配的方法。也是损失函数中一种——平方损失函数。**一元线性回归**回归模型参数估计...

2020-02-14 20:33:54 152

原创 用python实现有getMin()功能的栈

算法1.用python实现有getMin()功能的栈class Stack:def init(self):self.item = []def push(self, item): self.item.append(item)def pop(self): if len(self.item) == 0: return "your stack is empty"...

2019-10-29 19:24:47 360

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除