cyoutetsu-CSDN博客

原创 Outlier Analysis 2nd Edition笔记(一)

简介关于时间序列的一个假设是temporal continuity. 说的是数据在时间上具有连续性, 如果不连续, 那就算是异常数据. Temporal continuity refers to the fact that the patterns in the data are not expected to change abruptly, unless there are abnormal

2018-03-01 07:55:38 2035

原创时间序列分析框架

目前来讲，其实我们的数据可以分为两种，横截面数据和时间序列数据。这个也很容易理解，因为随着时间的推移，数据本身也会发生变化，如果我们只拿某一时刻的数据出来做分析，就是横截面数据，我们最常接触的众多机器学习算法实际上分析的都是这种数据，因为在其情景下，不需要时间这个特殊的维度。但是另外一种时间序列数据，加入了一种非常特殊的维度，也就是时间，描述的是某一个维度随着时间的变化而变化的情况，时间序列分析常用

2017-10-23 11:38:51 2862

原创大众点评数据分析报告

吃货地图作者：张哲特别说明：本篇可视化分析报告数据来源为大众点评，没有特别、任何有针对性的分析目标，是作者为求职所特别准备的。所有源码&图片：github.com/cyoutetsu/data_report城市和地区餐厅数量直观来看，城市中餐厅的数量和城市的规模从感觉上有着正相关的关系。从地区来看，还是经济发达的地区有着明显的优势，例如环渤海地区、西南地区、长三角和珠三角地区。如果用城市人口

2017-10-09 14:58:15 20183 4

原创游戏数据分析框架

游戏数据分析框架游戏数据分析框架用户用户分析的维度用户的统计平台时间渠道新增用户游戏硬技术新增用户的分析活跃用户 AARRR模型新老用户和留存活跃用户数量分析游戏时长分析用户流失生命周期分析用户生命周期价值，LTV LTV计算LTV分析用户购买关联分析留存定义和计算留存分析用户产品和运营留存率优化流失分析渠道渠道追踪渠道数据

2017-10-09 14:43:57 24700 1

原创 Python--迭代器和生成器

我们可以简单地吧迭代看做是一种处理序列中元素的方式。1.手动访问迭代器中的元素我们需要处理某个可迭代对象中的元素，但是基于某种原因不能也不想使用for循环。我们可以手动访问可迭代对象中的元素，可以使用next()函数，然后自己编码来捕获StopIteration异常。一般来说，StopIteration异常是用来通知我们迭代结束的。但是如果是手动使用next()函数，也可以命令它返回一个结束值，比如

2017-10-05 18:54:54 566

原创异常检测

异常检测的目的是发现与大部分其他对象不同的对象。通常，异常对象被称作为离群点，因为在数据的散布图中，他们远离其他数据点。也通常被称为偏差检测，因为异常对象的属性值明显偏离期望值的或常见的属性值。异常检测也成为例外挖掘，因为异常在某种意义上是例外的。异常检测方法基于模型的技术许多异常检测的技术是首先建立一个模型。异常是那些同模型不能完美拟合的对象。如果使用回归模型，异常就是相对远远离预测值的对象。如果

2017-10-03 22:51:11 1179

原创路径分析

路径分析路径分析是为了找出玩家在游戏中活动的轨迹，或者主要轨迹。通过路径分析，我们可以：找出玩家最典型的游戏模式，发现玩家最主流的路径，为版本的更新迭代提供信息。识别玩家的游戏特征，为用户画像提供更多的维度。优化游戏路径，找出现有设计不合理的地方遍历算法从用户第一次进入游戏开始，把每一个不同选择、不同结果的路径的流量提取出来，做一个树形的结构。就像下面的结构：我们可以很轻易地找出主流玩家

2017-10-03 16:23:01 2392

原创漏斗模型

漏斗模型玩家在进行游戏的时候，有时候多个事件是依次进行下去的，也就是进行完上一步才能进行下一步，从开始到终点有很多个环节需要依次进行，每一个环节用户都有可能退出。而数据分析师们在分析数据的时候就要清楚地找到每个每个环节还有多少百分比的用户在游戏，或者说每个环节损失掉了多少用户。进而分析他们为什么单单在这一个环节流失了，最重要的就是能够做什么让他们不离开游戏。环节设计漏斗环节的设计，首先是自定义的，也

2017-10-03 15:52:25 1729

原创 AARRR模型

AARRR模型是由TalkingData提出了一套用户分析的模型。本质上是基于营销和运营在投入和产出方面的分析，分析的角度是用户和用户的转化层面。从传统的成本分析的思路转化成用户价值分析的思路，从而确立了一些新的数据指标体系。框架A cquisition：用户获取A ctivation：提高活跃度R etetion：提高留存率R evenue：获取收入R efer：获取推荐和传播Acqu

2017-09-26 11:43:47 3639

原创聚类分析框架

优化目标聚类分析仅根据在数据中发现的描述对象及其关系的信息。将数据对象分组，其目标是：组内对象之间是相似的不同组的对象是不同的换句话说，也就是组内相似性越大越好，组间的差别越大越好。聚类的种类划分聚类（partitional clustering）：将数据对象集划分成不重叠的子集层次聚类（hierarchical clustering）：嵌套的集簇，组合成一棵树互斥的（exclusive

2017-09-26 09:05:57 1044

原创 DBSCAN聚类

DBSCAN聚类首先需要说明的是，密度的定义为在给定半径范围内样本点的数量。算法步骤标记对于每一个样本点，在其周边的给定半径的范围内，其余样本点的数量不小于指定的数量的话，这个样本点就是核心点(core point)如果小于指定的最小值，但是其半径范围内有核心点的话，这个点就是边界点(border point)剩下的点称为噪声点(noise point)划分每个核心点或者距离相近的几个核心

2017-09-25 11:53:31 492

原创 ggplot2--绘图基础

绘图基础所有的ggplot2的绘图都会先调用ggplot()的实例，用aes()来调用美化相关的函数。使用+来获得有关图层，标尺和坐标相关的。使用ggsave()来将图层保存。函数用法方法 ggplot ggplot(data=NULL,mapping=aes(),...,environment= 创建一个新的ggplot对象 aes aes(x,y,...)

2017-09-17 17:49:37 2117

原创 K-Means算法

K-MEANS算法K-MEANS算法用质心定义原型，其中质心是一组点的均值。算法步骤1.随机选择K个点作为初始质心这是一种常见的选择质心的方法，但是簇的质量常常很差取一个样本，并使用层次聚类技术对它聚类，从层次聚类中提取K个簇，并用这些簇的质心作为初始质心随机地选择第一个点，或取所有点的质心作为第一个点，选择离已经选取过的初始质心最远的点作为一个个后续的初始质心二分K均值使用后处理来修补所产

2017-09-17 14:55:40 743

原创 KNN算法

K近邻模型目的：规定一个训练数据集，对新输入的实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某一个类，就把该输入的实例分配给这个类。模型的三要素距离的度量：一般常用的是欧式距离，也有Lp距离等等K值得选择分类决策规则的决定距离的度量LpL_p距离：Lp(xi,xj)=[∑|x(l)i−x(l)j|p]1pL_p(x_i,x_j)=\left[\sum|x_i^{(l)

2017-09-17 14:26:32 454

原创如何写好一份数据分析报告

数据分析报告是数据分析过程和思路的最后呈现，得出分析的结论并给出解决方案。其本质上是在写一篇有理有据，逻辑性强的议论文。一份数据分析报告由以下几个部分组成：标题目录前言正文标题标题是一份报告的文眼，是全篇报告最浓缩的精华。好的标题让读者能毫无偏差地理解这篇分析报告的主要目的，有时可以直接在标题中加入部分或者关键性结论达到直达文意的效果。在标题的命名过程中，现在有一份关于数据分析师招聘和薪酬

2017-09-15 10:43:55 26509

原创优化数学基础

目标函数在机器学习中，把需要最大化或者最小化的函数称为目标函数。而在其中一大部分都是最小化，在最小化的优化中，目标函数又被称为代价函数(cost function)或者损失函数(loss function)。导数和偏导数假设有一个函数 y=f(x)y=f(x)，导数 f′(x)f'(x) 代表了 f(x)f(x) 在点x上的斜率。求导对于机器学习中优化问题的有很重要的意义。例如在梯度下降中，优化的方

2017-09-11 10:53:22 691

原创 SVM

支持向量机支持向量机的学习方法包含由简单到困难的三种分类方法：线性可分支持向量机线性不可分支持向量机非线性支持向量机线性可分支持向量机假设给定一个特征空间上有训练数据集 T=(x1,y1),(x2,y2),...,(xn,yn)T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}，其中 y={+1,−1}y=\{+1,-1\}，再假设样本数据点是线性可分的。目标是找出一

2017-09-07 17:02:36 461

原创 Python——logging模块

打印日志日志一共分成5个等级，从低到高分别是：DEBUG、INFO、WARNING、ERROR、CRITICAL。这5个等级，也分别对应5种打日志的方法： debug() 、info() 、warning() 、error() 、critical()。设定参数使用logging.basicConfig来设定日志输出的参数：level：设定root日志输出的等级，如果设定了某个等级，比如leve

2017-09-07 10:15:10 340

原创概率背景知识

概率分布概率分布(probability distribution)用来描述随机变量或一簇随机变量在米一个可能取到的状态的可能性的大小。概率质量函数离散型变量的概率分布可以用概率质量函数(probability mass function, PMF)来描述。例如一个随机变量X，X的取值为x时候的概率就是PMF(x)，可以简写成P(x)。联合概率分布PMF同时可以作用于多个随机变量上，例如X和Y，当X

2017-09-07 09:02:53 824

原创 Python编程细节（三）

函数1.编写可接受任意数量参数的函数可以在定义函数的参数的时候，在参数前面加上* 如果希望函数能有任意数量的关键字参数，则在参数前面加上**def func(*param1,**param2)模块的导入1.想要把一个文件夹变成包，需要在文件夹中加入__init__.py这样一个py文件，可以是空的。如果想要自动加载子模块的时候，可以包含一些import代码2.想要在包的子模块中导入同一个包的其他

2017-09-06 10:25:56 262

原创 Python编程——线程和进程

IO密集型和CPU密集型我们会针对不同的任务类型来决定是否使用python的多线程。IO密集型一般是指磁盘读写，例如读取和写入文件等等，和网络应用，典型的有网络爬虫等。因为这些操作限制你的并不是程序的性能，而是硬盘读写的速度或者网络的速度。CPU密集型主要就是指计算任务。此时需要发挥的就是程序本身的性能了，和其他的速度关系不大。线程、进程和协程线程所有的线程都在

2017-09-06 10:13:43 290

原创线性代数背景知识

线性代数线性代数的基本元素标量一个标量(scalar)就是一个单独的数。向量一个向量(vector)是一列数，我们可以把向量看作空间中的点，每个元素是不同坐标轴上的坐标。矩阵一个矩阵(matrix)是一个二维数组，其中的每一个元素由两个索引所确定。线性代数的运算矩阵相加只要矩阵的形状一样，我们就可以把两个矩阵相加，两个矩阵相加是指对应位置的元素相加。例如 C=A+BC=A+B 即为：Cij=Ai

2017-09-05 08:20:58 1863

原创 Python编程细节（二）

字符串和文本1.使用正则来拆分分隔符不一致的字符串import rere.split(r'[;,\s]',str)2.在筛选文件拓展名、URL协议的时候，使用str.startswith()或者str.endswith()来检查字符串的开头或者结尾any(name.endswith('.py') for name in filesnames3.从字符串中去掉不需要的字符默认情况下是去除空格符号st

2017-08-31 10:26:59 323

原创 ID3决策树的Python代码实现

ID3决策树的Python代码实现

2017-08-30 11:12:10 692

原创决策树原理

决策树决策树模型决策树是一种基本的分类和回归的方法，在它的基础上，会衍生出随机森林、XGBOOST等包含了模型融合的方法。我们可以从两个视角来观察决策树模型：决策树的构成决策树由结点(node)和边(directed edge)组成，其中结点由两种类型：内部结点(internal node)和叶节点(leaf node)。如果训练数据被分到内部结点，表示它还可以继续往下分；如果被分类到叶结点上，则表

2017-08-30 11:11:16 592

原创 Python编程细节（一）

基本风格类多重赋值和多元赋值多重赋值：x = y = z = 1 多元赋值：x, y, z = 1, 2, 'str'Python命名中要避免关键字查询命名是否是关键字的方法：iskeyword()Python对象None对象 Python有一个特殊的类型，被称为NoneType，它不支持任何运算也没有任何内建的方法。None没有什么有用的属性，而且它的布尔值总

2017-08-30 11:09:29 352

原创数据不平衡问题

数据不平衡问题数据不平衡问题实际上指的就是y的分布相差很大的问题，又称为类别不平衡问题。出现这种问题的原因是在实际取样中，有可能会出现一类的y数量远远大于另一类的例子。一个很明显的例子就是在做信用卡还款预测的时候，一定是按时还款的人占据绝大多数，不按时还款的人占一小部分，那如果机器无脑预测新客户一定会还款，正确率是很高的，但是这样的预测显然不是我们想要的。那么如何解决这种类型的问题呢？不仅从样本取样

2017-08-26 17:58:03 607

原创梯度下降

梯度下降法梯度下降法(gradient descent)是求解无约束最优化问题的一种常用方法，是一种迭代算法。*这里可以对比之前介绍的拉格朗日对偶性是解决有约束条件下的最优化方法。原理步骤目标函数假设 f(x)f(x) 是 RnR^n 上具有一阶连续偏导数的函数，现在要求解它的无约束最优化问题，即 minx∈Rnf(x)\min\limits_{x\in R^n} f(x)。原理选取适当的初值 x(

2017-08-24 17:22:41 709

原创拉格朗日对偶性

拉格朗日对偶性拉格朗日对偶性常常被用来解决有约束条件的最优化问题，在最大熵模型或者支持向量机的优化中最为常见，其主要思路就是将带约束条件的原始为题转换为没有约束条件的对偶问题。原始问题和拉格朗日函数首先呈现以下原始问题，我们在做优化的时候，会遇到需要优化一个函数 f(x)f(x)，这个函数还带着两个约束条件，这里分别用 ci(x)c_i(x) 和 hj(x)h_j(x) 来表示，写成数学表达式就是：

2017-08-24 11:28:45 395

原创逻辑回归原理

逻辑回归之前在线性回归的章节中，我们了解了线性回归的原理就是把点落在一条直线上，而在逻辑回归的部分则是希望能够把点落在一条曲线上，这是广义的线性回归，然后我们再用一个阈值来将那些点分开而达到分类的效果。而在最大熵原理的指导下，我们知道了那条曲线应该是一个什么样子的。LR和最大熵模型首先，回顾我们之前推导出的最大熵模型为：exp(∑i=1nwifi(x,y))∑y exp(∑i=1nw

2017-08-23 16:33:22 1218

原创最大熵模型

信息论概述信息论主要的关注点是一个信号包含的信息量。在机器学习的范畴内，信息论的思想主要是和概率结合，用来描述概率分布及其相关特性的。信息论的基本思想一件大概率事件发生了，给我们提供的信息要少于一件小概率事件发生提供的信息。比如我们天天习以为常的事情每天都在发生，没什么好研究的，如果一件几百年一遇的事情发生了，其信息量就很丰富了。以上这种思想其实是在用概率来量化一个信号的信息量。也就是小概率对应大信

2017-08-23 14:24:05 633

原创线性回归的数学原理以及代码实现

线性回归的数学原理以及代码实现首先要说的是线性模型想要得到的是一个线性组合。狭义的线性回归是想要把所有的点(或者叫特征)用一条直线来拟合，也就是图像上的点要尽可能地落到直线上。而广义的线性回归就不一定非要是直线了，例如在逻辑回归中用的就是一条对数几率的曲线，也就是图像上的点要尽可能的落到那条曲线上面。在这篇文章中主要对线性回归作讨论：首先呈上线性模型f(x)=wTx+bf(x)=w^Tx+b【优

2017-08-22 10:14:26 2022

原创 ROC曲线特征

An Introduction to ROC Analysis [T. Fawcett, 2005]ROCROC是以FPR为X轴，以TPR为Y轴的曲线。表示的是模型的效果（由TPR表示）和损失（由FPR代表）的相对关系和取舍概况。分类器对不同样本给出了更偏向正例还是反例的的概率值，然后这些概率值可以和一些人为设定的阈值比较从而得出最终的分类结果。例如，大于阈值的就是正例，小于阈值的就是反例。可

2017-08-15 15:41:04 2773

原创数据规范化

数据规范化的方法数据归一化数据归一化是指把数据压缩到[0,1]的区间内。1. Min-Maxsklearn.preprocessing.MinMaxScalar 将数据压缩到Min到Max组成的区间，并使其结果落在0到1的范围内。 x=x−minmax−minx = \frac{x-min}{max-min}2. z-scoresklearn.preprocessing.StandardScal

2017-08-15 15:29:40 1209

cyoutetsu的博客