LLS9-CSDN博客

转载形象的介绍操作系统！

1 计算机的核心是CPU，它承担了所有的计算任务。它就像一座工厂，时刻在运行。 2 假定工厂的电力有限，一次只能供给一个车间使用。也就是说，一个车间开工的时候，其他车间都必须停工。背后的含义就是，单个CPU一次只能运行一个任务。 3 进程就好比工厂的车间，它代表CPU所能处理的单个任务。任一时刻，CPU总是运行一个进程，其他进程处于非运行状态。 4 一个车间里，可以有很多工人。他们协...

2018-09-02 10:28:28 565

转载 C++基础

C 和 C++ 区别面向对象与面向过程的区别面向过程就是分析出解决问题所需要的步骤，然后用函数把这些步骤一步一步实现，使用的时候一个一个依次调用就可以了。面向对象是把构成问题事务分解成各个对象，建立对象的目的不是为了完成一个步骤，而是为了描叙某个事物在整个解决问题的步骤中的行为。例如五子棋，面向过程的设计思路就是首先分析问题的步骤：1、开始游戏，2、黑子先走，3、绘制画面，4、...

2018-09-02 10:27:41 1622

转载集成树模型（Ensemble）

介绍下rf，adaboost，gbdt，xgboost的算法原理？（注意adaboost，gbdt，xgboost的区别）RF的算法原理：随机森林是有很多随机得决策树构成，它们之间没有关联。得到RF以后，在预测时分别对每一个决策树进行判断，最后使用Bagging的思想进行结果的输出；主要步骤: 现在有N个训练样本，每个样本的特征为M个，需要建K颗树 1）从N个训练样本中有放回的取...

2018-08-31 22:16:57 4021

原创 Bagging与Boosting的区别

Bagging与Boosting的区别：取样方式（样本权重）：Bagging是均匀选取，样本的权重相等，Boosting根据错误率取样，错误率越大则权重越大训练集的选择：Bagging随机选择训练集，训练集之间相互独立，Boosting的各轮训练集的选择与前面各轮的学习结果有关预测函数：Bagging各个预测函数没有权重，可以并行生成，Boosting有权重，顺序生成 Bagging...

2018-08-31 22:16:27 3005

转载 SQL的数据类型

1）字符串：char、varchar、text2）二进制串：binary、varbinary3）布尔类型：boolean4）数值类型：integer、smallint、bigint、decimal、numeric、float、real、double5）时间类型：date、time、timestamp、interval...

2018-08-31 22:15:23 196

原创数据清洗

首先解决：数据中的重复值，异常值，空值，以及多余的空格和大小写错误的问题数据表中的重复值 duplicated()查找并显示数据表中的重复值说明：1、当两个条目间所有列的内容都相等时才会判断为重复（如条目1和4）2、duplicated支持从前往后（first）和从后往前（last）两种查找模式，默认是first，将后出现的相同条目判断为重复值，显示为True。 drop_duplic...

2018-08-30 23:11:48 659

转载 sql计算留存率

SELECT first_day, sum(case when by_day = 0 then 1 else 0 end) day_0, sum(case when by_day = 1 then 1 else 0 end) day_1, sum(case when by_day = 2 then 1 else 0 end) day_2, sum(...

2018-08-30 23:10:28 11658 2

转载如何解决数据缺失？

1）删除样本或删除字段2）用中位数、平均值、众数等填充3）插补：同类均值插补、多重插补、极大似然估计4）用其它字段构建模型，预测该字段的值，从而填充缺失值（注意：如果该字段也是用于预测模型中作为特征，那么用其它字段建模填充缺失值的方式，并没有给最终的预测模型引入新信息）5）onehot，将缺失值也认为一种取值6）压缩感知及矩阵补全...

2018-08-30 23:08:44 3317

转载数据预处理

数据ETL：包括三个方面，数据抽取（Extract），清洗（Cleaning），转换（Transform）数据挖掘一般过程： 1) 定义挖掘目标：熟悉应用领域背景知识，弄清用户需求； 2) 数据抽样：相关性，可靠性，有效性（不一定要使用全部的数据），保证质量； 3) 数据探索：异常值分析，缺失值分析，相关分析和周期性分析； 4) 挖掘建模：确定哪类问题，选用哪种算法； 5) 模...

2018-08-30 23:08:03 254

原创分类算法性能的主要指标

真阳：TP 真阴：TN 假阳：P 假阴：TN 1）查准率、查全率、F1 查准率即精确率（precision）:TP/（TP+FP）查全率即召回率（recall）：TP/（TP+FN） F-measure：2*precision*recall/(precision+recall) 准确率：accuracy=(TP+TN)/(TP+TN+FP+FN)2）AUC ...

2018-08-30 23:07:19 2168

转载机器学习集锦

机器学习分为四大块： classification (分类) clustering (聚类) regression (回归) dimensionality reduction (降维) classification & regression 举一个简单的例子：给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题，反之，如果 ...

2018-08-30 23:06:37 304

转载机器学习优缺点汇总

决策树优点 1、决策树易于理解和解释，可以可视化分析，容易提取出规则。 2、可以同时处理标称型和数值型数据。 3、测试数据集时，运行速度比较快。 4、决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。二、决策树缺点 1、对缺失数据处理比较困难。 2、容易出现过拟合问题。 3、忽略数据集中属性的相互关联。 4、ID3算法计算信息增益时结果偏向数值比较多的特征。 ...

2018-08-30 23:05:49 13660

原创 Python数据处理

1、生成数据表导入数据表 df=pd.DataFrame(pd.read_csv(‘name.csv’,header=1)) df=pd.DataFrame(pd.read_excel(‘name.xlsx’))创建数据表 df=pd.DataFrame({“id”:[1001,1002,1003,1004,1005,1006], “date”:p...

2018-08-30 23:04:43 449

转载 A/B test

什么是A/B测试？确定两个元素或版本（A和B）哪个版本更好，你需要同时实验两个版本。比较这两个版本之间你所关心的数据（转化率，业绩，跳出率等）。最后，您选择效果最好的版本。核心思想： 1、多个方案并行测试； 2、每个方案只有一个变量不同； 3、以某种规则优胜劣汰。具体工作：要实现 A/B 测试，我们需要做以下几个工作： 1、开发两个（或多个）不同的版本并部署； 2、收集数...

2018-08-27 15:41:00 482

原创如何判断用户在不断增长

简单的日活、周活、月活是不准确的要意识到可能是新活动拉了更多的人，却掩盖了客户流失问题所以：使用留存堆积图，新用户数量+老用户留存=真正的用户增长为什么要关注留存？客户产生价值往往需要很长时间才能产生，如果我们没有想办法把客户留下来，那么这个客户的获客成本相当于白花了。如何优化产品提高留存？在振荡期、选择期，我们应该多关注新用户留存，也就是提高次日留存率而进入平稳...

2018-08-27 15:40:30 260

原创 AARRR模型

AARRR指标以收入和增长为目标，通过内在5个指标间的逻辑关系改善并推动业务增长。获取（Acquisition）激活（Activation）留存（Retention）推荐（Referral）收入（Revenue）获取：获取用户把产品与服务主动推送到用户前面获取用户的渠道有哪些？社交媒体搜索引擎营销/优化公关 email营销广告活动/内容广告联盟...

2018-08-27 15:40:05 1468

转载用户画像

PV的全称是Pageview，中文的意思是：综合浏览量。综合浏览量”通俗的解释就是页面被加载的总次数。每一次页面被成功加载，就会被算作一次综合浏览量（PV）。UPV的全称是Unique Pageview，中文的意思是：唯一身份综合浏览量。 “唯一身份综合浏览量”在Google Analytics中的定义是：汇总由同一用户在同一会话期间生成的综合浏览量。唯一浏览量表示该页被浏览（一次或多次...

2018-08-27 15:39:35 303

转载 PV和UV

PV的全称是Pageview，中文的意思是：综合浏览量。综合浏览量”通俗的解释就是页面被加载的总次数。每一次页面被成功加载，就会被算作一次综合浏览量（PV）。UPV的全称是Unique Pageview，中文的意思是：唯一身份综合浏览量。 “唯一身份综合浏览量”在Google Analytics中的定义是：汇总由同一用户在同一会话期间生成的综合浏览量。唯一浏览量表示该页被浏览（一次或多次...

2018-08-27 15:39:06 1198

转载衡量产品的指标

怎样对产品做数据分析？用什么样的工具？怎么定义产品的指标 (metrics)？为什么要做数据分析？数据分析能带来什么样的价值？怎么定义产品的指标？最常用的是AARRR模型 [1]，也就是把用户从访问到使用，分成了获取（Aquisition）、激活（Activiation）、留存（Retention）3个阶段其核心指标是留存/活跃用户数，也就是希望用户能再次访问（e.g. 微信,...

2018-08-27 15:38:44 3214

转载数据化解析国内风险投资现状

数据源——Term Sheet常见的投资流程：阅读BP→访谈项目→投资决策→签订TS→DD→签订SPA/SHA→打款BP（Business Plan），商业计划书，创业者提供的解释商业模式和企业的材料，核心目的是吸引投资人注意力，非必须流程；TS（Term Sheet），投资意向协议，投资人和创业者签订的投资意向协议，投资人对项目感兴趣的明确信号，其中大部分商业条款不具有法律效力的...

2018-08-27 15:37:39 581

原创数据标准化

数据的标准化（normalization）是将数据按比例缩放，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较。0-1标准化 Z标准化

2018-08-27 15:36:31 328

原创视图、索引、事务

// 选出表中所有的数据 SELECT * FROM table_name; // 我们可以使用 where 来设置筛选条件，用order by对数据进行排序，用limit来设置需要的数据条数和数据开始的索引，用 distinct 来对数据去重// 插入一条数据 INSERT INTO table_name VALUES (值1，值2，……); or INSERT INTO tab...

2018-08-27 15:33:48 188

原创 Linux基本命令

1）目录操作：ls、cd、mkdir、find、locate、whereis等2）文件操作：mv、cp、rm、touch、cat、more、less3）权限操作：chmod+rwx4214）账号操作：su、whoami、last、who、w、id、groups等5）查看系统：history、top6）关机重启：shutdown、reboot7）vim操作：i、w、w!、q、...

2018-08-27 15:32:34 113

转载 C++知识点

变量声明和定义区别？ o 声明仅仅是把变量的声明的位置及类型提供给编译器，并不分配内存空间；定义要在定义的地方为其分配存储空间。 o 相同变量可以再多处声明（外部变量extern），但只能在一处定义。“零值比较”？ o bool类型：if(flag) o int类型：if(flag == 0) o 指针类型：if(flag == null) o float类...

2018-08-14 22:50:56 196

liushuangfrea的博客