数据分析
文章平均质量分 63
数据分析学习
十三吖
这个作者很懒,什么都没留下…
展开
-
小波、小波包相关知识整理
1.连续小波变换、离散小波变换、平稳小波变换、尺度1、连续小波的概念。就是把一个可以称作小波的函数(从负无穷到正无穷积分为零)在某个尺度下与待处理信号卷积。改变小波函数的尺度,也就改变了滤波器的带通范围,相应每一尺度下的小波系数也就反映了对应通带的信息。本质上,连续小波也就是一组可控制通带范围的多尺度滤波器。2、连续小波是尺度可连续取值的小波,里面的a一般取整数,而不像二进小波a取2的整数幂。...原创 2018-11-19 20:28:49 · 2822 阅读 · 0 评论 -
《精益数据分析》第7章你所在的商业领域
你的赚钱方式决定你应关注的指标最大化用户价值商业模式拼接书:用户获取渠道、销售战略、营收模式、产品类型、配送模式原创 2018-06-24 19:50:59 · 276 阅读 · 0 评论 -
《精益数据分析》第6章第一关键指标的约束力
在足以验证商业假设的前提下选择尽可能少的指标作为日常跟踪的对象非技术企业也需要关注一些简单且关乎商业模型的指标,持续关注这些指标可以预测未来,了解企业的惯常模式与趋向定义一个初始成功基准第一关键指标OMTM...原创 2018-06-22 09:39:27 · 542 阅读 · 0 评论 -
《精益数据分析》第5章数据分析框架
海盗指标说AARR:侧重于获取和转化用户行为 需要关注的指标:获取用户(Acquisition)、提高活跃度(Activation)、提高留存率(Retention)、获取营收(Revenue)、自传播(Referral)引擎说:帮助在何时以何种方式增长 黏着式增长引擎:客户留存率、流失率、使用频率等 病毒式增长引擎:传播系数、传播周期等 付费式增长引擎:精益创业画布:每个模块都有指...原创 2018-06-22 09:04:18 · 503 阅读 · 0 评论 -
《精益数据分析》第4章以数据为导向与通过数据获取信息
人类负责灵感,机器负责验证噪声/异常点/归一化/季节性/基数/指标原创 2018-06-21 10:18:29 · 376 阅读 · 0 评论 -
《精益数据分析》第3章你把生命献给谁
精益画布 客户细分:客户≠用户,客户是能够为你的产品和服务付费的用户。对目标客户进行细分,每一个客户人群应该对应一张画布,因为客户群体的不同会导致商业模式元素的变化。找出早期接纳者,他们是你的种子用户。对客户的特征描述尽量详细。 问题和需求:确定目标用户群的需求、痛点,并针对每一个痛点描述出目前现有的解决方案,找到现有方案没有解决问题的原因,便于后面“对症下药”。 核心卖点:相比竞争对手,...原创 2018-06-20 11:28:05 · 206 阅读 · 0 评论 -
《精益数据分析》第2章创业的记分牌
对于创业公司而言,进行数据分析是为了在资金耗尽以前,找到正确的产品和市场。好的数据指标是比较性的;简单易懂的;一个比率;会改变行为比率很重要定性指标与量化指标:虚荣指标:总注册用户、总活跃用户、点击量、页面浏览量、访问量、独立访客数、粉丝/好友/赞的数量、网站停留时间/浏览页数、收集到的用户邮件地址数量、下载量 可付诸行动的指标:活跃用户占总用户百分比、单位时间内新用户数量,根据收集到...原创 2018-06-20 11:02:01 · 255 阅读 · 0 评论 -
《精益数据分析》第1章我们都在说谎
最小可行化产品指足以向市场传达你所主张的价值的最小化产品。个人认为就是大致有部分主要功能的东西,最小可行化产品并不仅仅是一个带着削减一半功能的产品,或一种出门早点拿到产品的方式。事实上最小可行化产品并不一定需要成为产品,它并不是一些你仅仅制作一次,然后就可以考虑工作结束的事情。...原创 2018-06-19 19:38:51 · 318 阅读 · 0 评论 -
MySQL刷题(Leecode)
1.编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) select (select distinct Salary from Employee order by Salary desc limit 1 offset 1) as SecondHighestSalary;2.给定一个 Weather 表,编写一个 SQL 查询,来查找与之前(昨天的)日期相比温度...原创 2018-06-26 17:09:50 · 1656 阅读 · 0 评论 -
C/C++连接oracle
网上查了好多方法,有许多水货,还不如本人摸索前进,失败了几次之后终于成功,分享一下。 VS2010与oracle10g 第一步: 第二步: 第三步: 第四步: 对,就四步!...原创 2018-04-18 11:23:18 · 1297 阅读 · 0 评论 -
oracle(数据库创建、删除、启动、关闭)
创建数据库方法一:使用DatabaseConfiguration Assistant创建打开DatabaseConfiguration Assistant 选择创建数据库————>单击下一步 选择一般用途————>单击下一步 输入BookmManage————>单击下一步 使用enterprise manager配置数据库,使用database co...原创 2018-04-09 17:35:49 · 22663 阅读 · 0 评论 -
oracle(SQL*Plus的使用)
describe命令:返回数据库中所存储的对象的描述 查看scott用户下的emp表的所有列及属性SQL> desc scott.emp;Name Type Nullable Default Comments -------- ------------ -------- ------- -------- EMPNO NUMBER(4) ...原创 2018-04-08 18:36:06 · 534 阅读 · 0 评论 -
oracle修改用户名,密码
oracle修改用户名,密码首先我们打开命令行,cmd,进入oracle的后台管理界面,当然,还有很多其他的方式可以进入oracle后台管理界面,比如使用PL/SQL界面化工具,或者使用oracle自带的SQL工具。打开命令窗口,登录oracle后台管理界面: 具体命令为在运行处输入cmd,在弹出的命令提示窗口输入set oracle_sid=数据库名称,输入sqlplus进入ora...原创 2018-04-08 14:58:39 · 8329 阅读 · 0 评论 -
Python for Data Analysis 2
Python for Data Analysis第2章 python语法基础list.append(obj) 在列表的末尾添加新的对象,可以为字典,列表等list.count(obj) 统计某个元素在列表中出现的次数list.extend(*obj) 在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表)list.index(obj) ...原创 2018-11-02 22:04:36 · 578 阅读 · 0 评论 -
Python for Data Analysis 3
Python for Data Analysis第3章 python数据结构、函数和文件3.1 数据结构和序列元组元组是一个固定长度,不可改变的序列对象tup = 4,5,6tup(4, 5, 6)tup1 = (4,5,6),(7,8)tup1((4, 5, 6), (7, 8))# 可将任一序列或迭代器转换成元组tuple([2,3,4])(2, 3, 4)...原创 2018-11-03 08:11:36 · 731 阅读 · 0 评论 -
Python for Data Analysis 5
Python for Data Analysis第5章 pandas入门pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数...原创 2018-11-03 08:14:06 · 386 阅读 · 0 评论 -
Python for Data Analysis 6
Python for Data Analysis访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1 读写文本格式的数据https://ask.hellobi.com/blog/python...原创 2018-11-03 08:14:25 · 243 阅读 · 0 评论 -
Python for Data Analysis 7
Python for Data Analysis数据清洗和准备在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是...原创 2018-11-03 08:14:50 · 429 阅读 · 0 评论 -
Python for Data Analysis 8
Python for Data Analysis第8章 数据规整:聚合,合并,重塑8.1 层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。我们先来看一个简单的例子:创建一个Series,并用一个由列表或数组组成的列表作为索引:import nump...原创 2018-11-03 08:15:13 · 285 阅读 · 0 评论 -
Python for Data Analysis 4
Python for Data Analysis第4章 Numpy基础:数组和矢量计算import numpy as np4.1 NumPy的ndarray:一种多维数组对象# generate some random datadata = np.random.randn(2, 3)data array([[-0.88356437, -0.72686335, 0.6322185...原创 2018-11-03 08:17:56 · 400 阅读 · 0 评论 -
应用系统负载分析与磁盘容量预测
1 背景与目标分析根据历史磁盘数据,采用时间序列分析法,来预测应用系统服务器磁盘已经使用空间的大小;为管理员提供定制化的预警提示。 实质:时间序列—回归 ARMA模型介绍 AR、MA、ARMA、ARIMA数据特征# -*- coding: utf-8 -*-"""Created on Fri Jun 08 19:59:53 2018@author: lllllll...原创 2018-06-09 11:48:21 · 4111 阅读 · 3 评论 -
家用电器用户行为分析与事件识别
挖掘目标1 根据热水器采集到的数据,划分一次完整的用水事件。 2 在划分好的一次完整的用水事件中,识别出洗浴事件。分析方法、过程 1 对热水用户的历史用水数据进行选择性抽取,构建专家样本。 2 对步骤1形成的数据集进行数据探索与预处理。包括探索用水时间时间间隔的分布,规约冗余属性、识别用水数据的缺失值,并对缺失值进行处理,根据建模的需要进行属性构造等。 3 在步骤2的建模...原创 2018-06-07 16:05:32 · 9158 阅读 · 33 评论 -
中医证型关联规则挖掘
1.目的借助患者病理信息,挖掘患者的症状与中医证型之间的关联关系,对治疗提供依据,挖掘潜在证素 2.挖掘方法与过程采用关联规则算法,挖掘各中医证素与乳腺癌分期之间的关系 步骤: 问卷采集数据,形成原始数据 数据预处理(数据清洗、属性规约、数据交换) 对数据采用关联规则算法,调整参数,训练得到关系模型 结合业务,结果分析,应用实际3.数据预处理(1)数据清洗:...原创 2018-06-02 20:14:49 · 5687 阅读 · 3 评论 -
连续数据离散化
#数据规范化import pandas as pddatafile = 'eeeee/chapter4/demo/data/discretization_data.xls' #参数初始化data = pd.read_excel(datafile) #读取数据data = data[u'肝气郁结证型系数'].copy()k = 4#等宽离散化d1 = pd.cut(data, k,...原创 2018-06-02 19:33:40 · 2554 阅读 · 0 评论 -
基于水色图像的水质评价
1.背景与挖掘目标通过观察水色变化调控水质,维持水体生态系统平衡。 2.分析方法与过程通过图像显示提取水样特征,提取反映图像本质的关键指标,以达到自动进行图像识别或分类的目的。图像特征包括颜色特征,纹理特诊,形状特征和空间关系特征等。此处采用颜色特征进行处理,基于颜色矩的特征提取。 步骤: 1.采集水样图像进行选择性抽取和实时抽取,形成建模数据和增量数据(即为训练集与测试集...原创 2018-06-04 22:22:54 · 18969 阅读 · 19 评论 -
电力窃漏电用户自动识别
1.挖掘目标1)归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型; 2)调用模型进行实时监测 2 分析方法与过程要剔除不可能存在漏电的大用户,如银行、税务、学校、工商。用电负荷随着时间的变化才有价值,而终端报警存在误报和漏报,而这些数据都能够帮助总结用户窃漏电的行为规律,即通过预处理提炼出描述用户窃漏电特征的相关指标,最终得到建模使用的专家样本数据集,然后开始建模等工作。主...原创 2018-05-31 15:37:47 · 8653 阅读 · 33 评论 -
线性回归、岭回归、Lasso回归
一 线性回归(最小二乘法)假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。即对应的线性模型写成矩阵的形式即是Y=XA由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量即B=Y-XAY为样本值,XA为模型的计算值,即期望值误差的平方的计算公式Xi为行向量,A为...原创 2018-05-31 17:00:10 · 6161 阅读 · 0 评论 -
连续特征离散化
在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:1 离散特征的增加和减少都很容易,易于模型的快速迭代; 2稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 3离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型...原创 2018-05-31 20:19:19 · 247 阅读 · 0 评论 -
CART分类树连续值的处理
对于CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同,C4.5使用的是信息增益,则CART分类树使用的是基尼系数。具体的思路如下,比如m个样本的连续特征A有m个,从小到大排列为a1,a2,…,ama1,a2,…,am,则CART算法取相邻两样本值的中位数,一共取得m-1个划分点,其中第i个划分点Ti表示Ti表示为:...原创 2018-05-31 21:31:56 · 5878 阅读 · 0 评论 -
航空公司客户价值分析
挖掘目标(1) 根据航空公司客户数据对客户进行分类。(2) 对不同的客户类别进行特征分析,比价不同类客户的客户价值。(3) 对不同价值的客户类别提供个性化服务,制定相应的营销策略。分析方法与过程识别客户价值应用最广泛的模型指标:最近消费时间间隔,消费频率,消费金额(RFM模型)。本案例考虑项目指标(LRFMC模型):(1) 客户关系长度L:航空公...原创 2018-06-01 10:41:55 · 1642 阅读 · 0 评论 -
时间序列建模教程
简介在商业应用中,时间是最重要的因素,能够提升成功率。然而绝大多数公司很难跟上时间的脚步。但是随着技术的发展,出现了很多有效的方法,能够让我们预测未来。不要担心,本文并不会讨论时间机器,讨论的都是很实用的东西。 本文将要讨论关于预测的方法。有一种预测是跟时间相关的,而这种处理与时间相关数据的方...原创 2018-05-04 10:11:52 · 17950 阅读 · 1 评论 -
机器学习中的范数规则化之L0、L1与L2范数
转自https://blog.csdn.net/sinat_26917383/article/details/52092040 机器学习中的范数规则化之(一)L0、L1与L2范数博客的学习笔记,对一些要点进行摘录。规则化也有其他名称,比如统计学术中比较多的叫做增加惩罚项;还有现...转载 2018-03-31 11:33:12 · 309 阅读 · 0 评论 -
交叉验证
转自:https://blog.csdn.net/holybin/article/details/27185659 一、训练集 vs. 测试集在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(...转载 2018-03-31 11:13:16 · 1483 阅读 · 0 评论 -
解决过拟合问题
转载自https://blog.csdn.net/huangfei711/article/details/79436698 如何降低过拟合?这是深度学习中非常重要的问题。关于过拟合的相关概念和过拟合带来的危害,可参考笔者之前的博客:过拟合与欠拟合简要总结。如何解决过拟合?1. 获取和使用更多的数据集对于解...转载 2018-03-30 22:31:18 · 2601 阅读 · 0 评论 -
归一化、标准化、正则化
归一化是为了消除不同数据之间的量纲,方便数据比较和共同处理,比如在神经网络中,归一化可以加快训练网络的收敛性;标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理;正则化而是利用先验知识,在处理过程中引入正则化因子(regulator),增加引导约束的作用,比如在逻辑回归中使用正则化,...原创 2018-05-28 22:27:36 · 283 阅读 · 0 评论 -
数据挖掘---预处理
数据预处理 在数据挖掘中,海量的原始数据中存在着大量的不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理,该过程就是数据预处...原创 2018-05-28 19:17:41 · 1273 阅读 · 0 评论 -
秦路数据分析 Week Three
Excel常用于敏捷,快速,需要短时间相应的场景下是非常便捷的数据处理工具。相对于语言类例如python和R等则用于常规的,规律的场景中应用,便于形成日常规则统计分析。对于学习的路径:Excel函数—>SQL函数——>python必知必会内容:保证使用版本是2013+;培养好的数据表格习惯;主动性的搜索;多练习Exce...原创 2018-05-12 16:06:19 · 493 阅读 · 0 评论 -
Excel----函数
清洗处理类主要是文本、格式以及脏数据的清洗和转换。很多数据并不是直接拿来就能用的,需要经过数据分析人员的清理。数据越多,这个步骤花费的时间越长。TrimTRIM 清除掉字符串两边的空格。 MySQL有同名函数,Python有近似函数strip。ConcatenateCONCATENATE =Concatenate(单元格1,单元格2……) 合并单元格中的内容,还有另一种...原创 2018-05-13 14:54:37 · 281 阅读 · 0 评论 -
Excel----技巧
快捷键Excel的快捷键很多,以下主要是能提高效率:Crtl+方向键,对单元格光标快速移动,移动到数据边缘(空格位置)。Crtl+Shift+方向键,对单元格快读框选,选择到数据边缘(空格位置)。Ctrrl+空格键,选定整列。Shift+空格键,选定整行。Ctrl+A,选择整张表内容。Alt+Enter,换行。Ctrl+Enter,以当前单元格为始,往下填充数据和函...原创 2018-05-13 15:24:36 · 198 阅读 · 0 评论 -
21分钟 MySQL 入门教程
转载自:http://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html#c2 21分钟 MySQL 入门教程 目录一、MySQL的相关概念介绍二、Windows下MySQL的配置配置步骤MySQL服务的启动、停止与卸载三、MySQL脚本的基本组成四、MySQL中的数据类型五、使用MySQ...转载 2018-04-16 15:11:12 · 204 阅读 · 0 评论