自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 形象的介绍操作系统!

1 计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。 2 假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车间都必须停工。背后的含义就是,单个CPU一次只能运行一个任务。 3 进程就好比工厂的车间,它代表CPU所能处理的单个任务。任一时刻,CPU总是运行一个进程,其他进程处于非运行状态。 4 一个车间里,可以有很多工人。他们协...

2018-09-02 10:28:28 547

转载 C++基础

C 和 C++ 区别 面向对象与面向过程的区别 面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了。 面向对象是把构成问题事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙某个事物在整个解决问题的步骤中的行为。 例如五子棋,面向过程的设计思路就是首先分析问题的步骤:1、开始游戏,2、黑子先走,3、绘制画面,4、...

2018-09-02 10:27:41 1599

转载 集成树模型(Ensemble)

介绍下rf,adaboost,gbdt,xgboost的算法原理?(注意adaboost,gbdt,xgboost的区别)RF的算法原理: 随机森林是有很多随机得决策树构成,它们之间没有关联。得到RF以后,在预测时分别对每一个决策树进行判断,最后使用Bagging的思想进行结果的输出; 主要步骤: 现在有N个训练样本,每个样本的特征为M个,需要建K颗树 1)从N个训练样本中有放回的取...

2018-08-31 22:16:57 3905

原创 Bagging与Boosting的区别

Bagging与Boosting的区别: 取样方式(样本权重):Bagging是均匀选取,样本的权重相等,Boosting根据错误率取样,错误率越大则权重越大 训练集的选择:Bagging随机选择训练集,训练集之间相互独立,Boosting的各轮训练集的选择与前面各轮的学习结果有关 预测函数:Bagging各个预测函数没有权重,可以并行生成,Boosting有权重,顺序生成 Bagging...

2018-08-31 22:16:27 2990

转载 SQL的数据类型

1)字符串:char、varchar、text2)二进制串:binary、varbinary3)布尔类型:boolean4)数值类型:integer、smallint、bigint、decimal、numeric、float、real、double5)时间类型:date、time、timestamp、interval...

2018-08-31 22:15:23 191

原创 数据清洗

首先解决:数据中的重复值,异常值,空值,以及多余的空格和大小写错误的问题数据表中的重复值 duplicated()查找并显示数据表中的重复值 说明:1、当两个条目间所有列的内容都相等时才会判断为重复(如条目1和4)2、duplicated支持从前往后(first)和从后往前(last)两种查找模式,默认是first,将后出现的相同条目判断为重复值,显示为True。 drop_duplic...

2018-08-30 23:11:48 650

转载 sql计算留存率

SELECT first_day, sum(case when by_day = 0 then 1 else 0 end) day_0, sum(case when by_day = 1 then 1 else 0 end) day_1, sum(case when by_day = 2 then 1 else 0 end) day_2, sum(...

2018-08-30 23:10:28 11639 2

转载 如何解决数据缺失?

1)删除样本或删除字段2)用中位数、平均值、众数等填充3)插补:同类均值插补、多重插补、极大似然估计4)用其它字段构建模型,预测该字段的值,从而填充缺失值(注意:如果该字段也是用于预测模型中作为特征,那么用其它字段建模填充缺失值的方式,并没有给最终的预测模型引入新信息)5)onehot,将缺失值也认为一种取值6)压缩感知及矩阵补全...

2018-08-30 23:08:44 3296

转载 数据预处理

数据ETL: 包括三个方面,数据抽取(Extract), 清洗(Cleaning),转换(Transform)数据挖掘一般过程: 1) 定义挖掘目标:熟悉应用领域背景知识,弄清用户需求; 2) 数据抽样:相关性,可靠性,有效性(不一定要使用全部的数据),保证质量; 3) 数据探索:异常值分析,缺失值分析,相关分析和周期性分析; 4) 挖掘建模:确定哪类问题,选用哪种算法; 5) 模...

2018-08-30 23:08:03 243

原创 分类算法性能的主要指标

真阳:TP 真阴:TN 假阳:P 假阴:TN 1)查准率、查全率、F1 查准率即精确率(precision):TP/(TP+FP) 查全率即召回率(recall):TP/(TP+FN) F-measure:2*precision*recall/(precision+recall) 准确率:accuracy=(TP+TN)/(TP+TN+FP+FN)2)AUC ...

2018-08-30 23:07:19 2162

转载 机器学习集锦

机器学习分为四大块: classification (分类) clustering (聚类) regression (回归) dimensionality reduction (降维) classification & regression 举一个简单的例子: 给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 ...

2018-08-30 23:06:37 291

转载 机器学习优缺点汇总

决策树优点 1、决策树易于理解和解释,可以可视化分析,容易提取出规则。 2、可以同时处理标称型和数值型数据。 3、测试数据集时,运行速度比较快。 4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。 二、决策树缺点 1、对缺失数据处理比较困难。 2、容易出现过拟合问题。 3、忽略数据集中属性的相互关联。 4、ID3算法计算信息增益时结果偏向数值比较多的特征。 ...

2018-08-30 23:05:49 13607

原创 Python数据处理

1、生成数据表导入数据表 df=pd.DataFrame(pd.read_csv(‘name.csv’,header=1)) df=pd.DataFrame(pd.read_excel(‘name.xlsx’))创建数据表 df=pd.DataFrame({“id”:[1001,1002,1003,1004,1005,1006], “date”:p...

2018-08-30 23:04:43 436

转载 A/B test

什么是A/B测试? 确定两个元素或版本(A和B)哪个版本更好,你需要同时实验两个版本。比较这两个版本之间你所关心的数据(转化率,业绩,跳出率等)。最后,您选择效果最好的版本。核心思想: 1、多个方案并行测试; 2、每个方案只有一个变量不同; 3、以某种规则优胜劣汰。具体工作: 要实现 A/B 测试,我们需要做以下几个工作: 1、开发两个(或多个)不同的版本并部署; 2、收集数...

2018-08-27 15:41:00 462

原创 如何判断用户在不断增长

简单的日活、周活、月活是不准确的 要意识到可能是新活动拉了更多的人,却掩盖了客户流失问题 所以: 使用留存堆积图,新用户数量+老用户留存=真正的用户增长为什么要关注留存? 客户产生价值往往需要很长时间才能产生,如果我们没有想办法把客户留下来,那么这个客户的获客成本相当于白花了。如何优化产品提高留存? 在 振荡期、选择期,我们应该多关注新用户留存,也就是提高次日留存率 而进入平稳...

2018-08-27 15:40:30 252

原创 AARRR模型

AARRR指标以收入和增长为目标,通过内在5个指标间的逻辑关系改善并推动业务增长。获取(Acquisition) 激活(Activation) 留存(Retention) 推荐(Referral) 收入(Revenue)获取:获取用户 把产品与服务主动推送到用户前面 获取用户的渠道有哪些? 社交媒体 搜索引擎营销/优化 公关 email营销 广告活动/内容 广告联盟...

2018-08-27 15:40:05 1451

转载 用户画像

PV的全称是Pageview,中文的意思是:综合浏览量。 综合浏览量”通俗的解释就是页面被加载的总次数。每一次页面被成功加载,就会被算作一次综合浏览量(PV)。UPV的全称是Unique Pageview,中文的意思是:唯一身份综合浏览量。 “唯一身份综合浏览量”在Google Analytics中的定义是:汇总由同一用户在同一会话期间生成的综合浏览量。唯一浏览量表示该页被浏览(一次或多次...

2018-08-27 15:39:35 292

转载 PV和UV

PV的全称是Pageview,中文的意思是:综合浏览量。 综合浏览量”通俗的解释就是页面被加载的总次数。每一次页面被成功加载,就会被算作一次综合浏览量(PV)。UPV的全称是Unique Pageview,中文的意思是:唯一身份综合浏览量。 “唯一身份综合浏览量”在Google Analytics中的定义是:汇总由同一用户在同一会话期间生成的综合浏览量。唯一浏览量表示该页被浏览(一次或多次...

2018-08-27 15:39:06 1175

转载 衡量产品的指标

怎样对产品做数据分析?用什么样的工具? 怎么定义产品的指标 (metrics)? 为什么要做数据分析?数据分析能带来什么样的价值?怎么定义产品的指标? 最常用的是AARRR模型 [1],也就是把用户从访问到使用,分成了获取(Aquisition)、激活(Activiation)、留存(Retention)3个阶段 其核心指标是留存/活跃用户数,也就是希望用户能再次访问(e.g. 微信,...

2018-08-27 15:38:44 3158

转载 数据化解析国内风险投资现状

数据源——Term Sheet常见的投资流程:阅读BP→访谈项目→投资决策→签订TS→DD→签订SPA/SHA→打款BP(Business Plan),商业计划书,创业者提供的解释商业模式和企业的材料,核心目的是吸引投资人注意力,非必须流程;TS(Term Sheet),投资意向协议,投资人和创业者签订的投资意向协议,投资人对项目感兴趣的明确信号,其中大部分商业条款不具有法律效力的...

2018-08-27 15:37:39 567

原创 数据标准化

数据的标准化(normalization)是将数据按比例缩放,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较。0-1标准化 Z标准化

2018-08-27 15:36:31 313

原创 视图、索引、事务

// 选出表中所有的数据 SELECT * FROM table_name; // 我们可以使用 where 来设置筛选条件,用order by对数据进行排序,用limit来设置需要的数据条数和数据开始的索引,用 distinct 来对数据去重// 插入一条数据 INSERT INTO table_name VALUES (值1,值2,……); or INSERT INTO tab...

2018-08-27 15:33:48 178

原创 Linux基本命令

1)目录操作:ls、cd、mkdir、find、locate、whereis等2)文件操作:mv、cp、rm、touch、cat、more、less3)权限操作:chmod+rwx4214)账号操作:su、whoami、last、who、w、id、groups等5)查看系统:history、top6)关机重启:shutdown、reboot7)vim操作:i、w、w!、q、...

2018-08-27 15:32:34 105

转载 C++知识点

变量声明和定义区别? o 声明仅仅是把变量的声明的位置及类型提供给编译器,并不分配内存空间;定义要在定义的地方为其分配存储空间。 o 相同变量可以再多处声明(外部变量extern),但只能在一处定义。“零值比较”? o bool类型:if(flag) o int类型:if(flag == 0) o 指针类型:if(flag == null) o float类...

2018-08-14 22:50:56 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除