自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 O2O优惠券数据分析(二)

写在前面的话本文中部分数据分析逻辑继承于O2O优惠券数据分析(一),如对文中部分数据处理和分析逻辑有问题,可先阅读前文。本文将主要负责分析线上用户行为及线上和线下共同用户的行为。数据清理# 读取线上数据集online_df=pd.read_csv('/content/drive/MyDrive/o2o/ccf_online_stage1_train.csv')online_df.head()print('线下消费行为数据{}行'.format(online_df.shape[0]

2021-09-30 12:30:37 1537

原创 O2O优惠券数据分析(一)

写在前面的话本文的数据分析任务是我在几个月前为了准备面试锻炼自己的数据分析思路做的,项目中没有涉及到机器学习建模内容,是一个单纯用数据得出结论的任务。因为准备时间仓促,所以项目里待完善的内容很多。最后机缘巧合也没有去应聘数据分析师的工作,因此想把这个项目分享出来,希望对想准备数据分析面试的读者有所帮助。本文的数据集来自天池中一个O2O优惠券核销率预测的比赛,感兴趣的读者可以自行下载相关数据集。数据介绍本文所使用的数据集是关于O2O营销活动优惠券发放的,提供的数据集包括线上和线下两部分。在线下数据

2021-09-30 10:59:38 4643 2

原创 NLP:从Attention到BERT

写在前面的话虽然本文作者的主要兴趣并不集中在NLP领域,但该领域的诸多研究成果已经渗透到了机器学习领域的各个方向。且对于文本的处理也是许多机器学习任务的必经之路。经过简单探索,作者发现各种平台上对该领域的研究成果的详解非常丰富。因此本文旨在通过对其他资料的研究,以浅显易懂的语言阐述NLP领域比较火热的研究成果。Attention(图中左下角应为编码器)首先,什么是attention机制?在attention出现之前,编码器的工作就是把序列输入转化成隐藏状态然后把最后一个隐藏状态输出给解.

2021-09-22 11:06:05 320

原创 循环神经网络(RNN)

循环神经网络(Recurrent Neural Network)循环神经网络有别于普通的全连接神经网络,其特殊的神经元输入设置使得循环神经网络对于自带序列性质的数据有着更好的效果。在最简单的RNN神经元中,每个神经元会同时接受时刻的输入和上一时刻的输出从而达到捕捉序列中信息的效果。用数学公式可表达为:对于上图的循环神经网络,梯度反向传播的过程可表达为:在分别对和求导的过程中,与全连接神经网络不同的是:是关于的函数。因此,,也同理。更进一步地,其中,,上述梯度.

2021-09-19 11:18:39 1342

原创 从最大似然估计的角度理解线性回归和逻辑回归

写在前面的话转眼学习数据分析和机器学习也有一年了,虽然上手了不少项目也实际应用过很多机器学习算法,但对于算法的原理和推导确实也还在一知半解的程度。为了知其然还要知其所以然,本篇文章就从最统计学最基础的最大似然估计来推导线性回归和逻辑回归的损失函数。最大似然估计通俗地来说,最大似然估计所要达成的目标就是找到一组参数使得表达的概率分布能够在最大程度上拟合观测到的样本的联合概率分布。这句话用数学的语言表达就是:或者。虽然在很多非正式场合概率和似然经常被混为一谈,但是这两个概念其实是不同的。概率表达的是

2021-06-14 10:54:48 695

原创 用数据驱动Leetcode刷题效率

写在前面的话相信所有经常使用CSDN的读者也都对Leetcode不陌生,Leetcode上汇集了各种关于算法和数据结构的题目,系统性的学习Leetcode上题目的解题思路有助于熟悉各种数据结构和培养编程思维。截至目前Leetcode上已经有1842道题相信随着时间的流逝这个数目会只增不减,那到底怎么以一种最有效率的方式来刷Leetcode呢?读完本文后你可能也会有自己的答案。数据预处理本次分析使用的原始数据中包含了1959道Leetcode题目,数据集如下图所示:这个数据集提供了相当全面的数据,

2021-04-30 16:40:47 220 1

原创 使用Python实现Primal-Dual Interior Point Method

Primal Dual Problem对于每一个优化问题(Primal problem),都有其对应的对偶问题(Dual problem)。每个优化问题的对偶问题可设置一个优化问题的Lagrangian function并求其最优解得出。例如:对优化问题 约束条件为,,Lagrangian funciton可表示为:,对其求最优解可得:,将带入Lagrangian function,则得到对偶问题为:约束条件为在每次迭代求解时,对偶问题都为初始问题提供了一个下限(lower bound),在..

2021-04-21 07:13:12 1161 1

原创 使用python实现带回溯的梯度下降

Gradient-based Method在优化的领域里,gradient-based method表示每次迭代直接使用目标函数的gradient的相反方向作为下降的方向。于是每次迭代的更新方式可表示为:其中Steepest Descent with Exact Line SearchSteepest descent是一种使用gradient-based method时可以最快收敛的方法。其算法原理是在每次迭代时为了确定最优的步长,把目标函数转换为以为变量的函数并求其最优解,即在每次迭...

2021-04-21 06:04:37 1074 2

原创 英雄联盟数据分析专题(三)

写在前面的话本次的主题是关于英雄联盟的Tribunal法庭系统国服也叫做议事大厅。英雄联盟议事大厅是为了解决骚扰投诉而设计的,让所有拥有资格的玩家去评估每个被投诉者的案子。英雄联盟议事大厅会提供每一位被举报玩家的相关数据,审判者需要对内容进行仔细的判断后,决定“惩戒”或“宽恕”被举报的玩家。(摘自英雄联盟国服官网)在游戏中我们难免会遇到一些不太友好的玩家使用语言攻击对手或队友,而在结束游戏后针对言行过激的玩家大部分玩家都会使用举报系统进行举报。其中一些被举报的案例会统一交由参与议事大厅的玩家来投票决定

2021-01-14 14:40:29 1578 2

原创 利用PCA进行数据降维

PCA原理在介绍PCA之前首先要熟悉一下数学推导过程。特征多项式:设A为一个方阵,则该方阵的特征多项式就为该方阵减去倍的单位矩阵后构成的矩阵的行列式。而该多项式的所有解即为的值,也就是该方阵的特征值。解得特征值之后如何求得特征向量:找到特征值后,根据上式定义我们可推出,即,该式中即为特征向量,与已知,解出上式即可求出方阵A的特征向量,且每个特征值对应一个特征向量。特征分解:对于任一方阵A,其可根据上式被分解,P为由方阵的特征向量构成的方阵,D为一对角矩阵,其中当方阵A的特

2020-11-10 04:51:53 1801 1

原创 卷积神经网络(Convolutional Neural Network) 简介

卷积神经网络与普通神经网络有哪些不同对于图像类的数据来说,使用全连接的普通神经网络其需要的权重数量会显著受输入的图像大小影响。举例说明,一个128x128的彩色图片其输入值的维度为128x128x3,假设隐藏层有十个神经元,其需要的变量数就为128x128x3x10+10=491530个,如果使用更多神经元和更多隐藏层,变量的维度很快就会爆炸。而使用过多的自由度(Degree of freedom)会导致过拟合,但这还只是全连接神经网络处理图像数据的其中一个问题。试想如果使用全连接神经网络,每个像素对应为

2020-11-05 12:42:10 991

原创 线性模型+非线性=神经网络

感知机(Perceptron) 线性分类问题(Linear Classification)说起单层感知机,首先要从线性二分类问题谈起。什么是线性二分类问题呢,首先数据在数据空间中应该是线性可分的,即可用一条直线(在几何空间中应为超平面)把不同类的数据分割开,而这条直线(超平面)就叫做决策边界(Decision Boundary)。其次数据空间中数据的类别数应为两种,而这两种类别通常被称为正例(...

2020-10-01 06:44:22 924

原创 英雄联盟数据分析专题(二)

写在前面的话 大部分的英雄联盟玩家应该都知道英雄联盟全球总决赛的重要性,这是由Riot Games组织的世界范围内的英雄联盟俱乐部之间的比赛。该项赛事自2011年创办第一届后每年都会在十月为全球的英雄联盟玩家带来世界最强的俱乐部之间的对抗。自该项赛事创办以来,公认实力最强的也是讨论热度最高的两个赛区分别是:韩国赛区以及中国大陆赛区。在已举办的九届全球总决赛中,韩国赛区拿到过5次总冠军,其中SKT的中单选手Faker更是成为每年关注的焦...

2020-07-01 14:05:46 3019 5

原创 英雄联盟数据分析专题(一)

写在前面的话 英雄联盟是一款在世界范围内拥有众多玩家的MOBA游戏,它陪伴了我们这一代人的成长。在游戏中以五人一队为单位分为红方和蓝方两个阵营,最先推掉对方基地水晶的队伍为胜者。队内每个玩家分担不同职责:上单,中单,ADC,辅助以及打野各司其职,不仅要专注于兵线运营和进攻对方防御塔还要掠夺地图资源来为队伍取得更大优势。英雄联盟这款游戏经历了这么多年已经发展出了各种不同的玩法,每个玩家也对...

2020-06-12 11:38:33 8200 12

原创 流媒体平台影视数据分析(数据预处理与可视化)

背景介绍相信大家在选择订阅流媒体平台时一定都会有一个疑问????️ :到底选择订阅哪一个平台可以观看到更多质量更高的影片呢?又或者我偏爱某一类型的电影我该选择哪一家流媒体平台订阅呢?为了解决这个问题,我选取了一个包含近100年发行的超过一万部影片的相关信息及Netflix,Hulu,Prime Video,Disney+四家流媒体平台的放映信息的数据包。 ...

2020-06-09 04:11:46 3320 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除