日志
最近公司要改变运营思路了,准备多往数据分析这方面发展,那我为了保住工作那必须得往这边补点知识点呀,结果一不小心,学错了,行吧,宝贵的摸鱼时间被我浪费了,笔记拿出来给大家看看吧。
笔记
数据分析与统计入门 → 基本概念及应用 1.数据分析与统计的基本定义 2.熟悉数据分析基本要素及实践准则 3.了解常见的数据源 答:数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究 和概论总结的过程。这一过程也是质量管理系统体系的支持过程。在实用中,数据分析可帮助人们做出判断,以便采取适当行动 答: 数据(data)是为了描述和解释所搜集,分析汇总的事实和数字。将用于特定研究而搜集的所有数据称为研究的数据集 个体(element)是指所收集数据的实体 变量(variable)是个体中所感兴趣的那些特征 观测值(observation)在一项研究中,对每一个个体的每一变量收集观测值,从而得到了数据,对一特定个体得到的测量值集合称为一个观测值 答:常用的数据源: 公司企业应用数据 Google Trends ||| Google Dataset Search 数据处理经验 !数据清洗:缺失值,异常值和重复值的处理 一。 数据列缺失的处理方法:能够自动处理缺失值的模型包括:KNN,决策树和随机森林,神经网络和朴素贝叶斯 手动:丢失:比例低于10%,缺失值没有明显的数据分布规律或特征 补全:统计法,模型法,专家补全,其他方法 真值转换:承认缺失值的存在,并且把数据缺少也作为数据分布规律的一部分 二。 不要轻易抛弃异常数据 伪异常 这些异常是由于业务特定运营动作产生,其实是正常反映业务状态 真异常 异常数据本身是目标数据,如果被处理掉将丢失关键信息 异常检测 客户异常识别,信用卡欺诈,贷款审批识别,药物变异识别,恶劣气象预测,网络入侵检测等 三。 数据重复就需要去重吗 若不去重 重复的记录用于分析演变规律 数据处理经验 !!样本类别不平衡 一般场景如下: 1.异常检测场景 例:黄牛订单 信用卡欺诈 电力且电 2.罕见事件分析 例:某网络大V无意中转发了一条微博导致用户流浪明显提升 3.客户流失场景 例:大型企业的流失客户,电信,石油,网络运营商 4.发生频率低的事件 例:事件是y预期或j计划性事件,但是发生频率的非常低 一般解决情况: 过抽样:增加分类中少数类样本的数量 欠抽样:减少分类中多数类样本的数量 样本权重:对于分类中不同样本数量的类别分别赋予不同的权重,然后进行计算和建模 组合/集成 : 同时从分类中的大样本量中随机抽取数据来与小样本合并构成训练集,这样反复多次会得到很多训练集和训练模型 特征选择:解决样本不平衡 数据处理经验 !!!解决数据源的冲突 一般为以下四种冲突 类型冲突: 会员注册时间这一字段其存储格式含有日期和时间戳两种 结构冲突: 对于同一数据主体的描述结构有冲突 记录粒度不同:对于订单记录的粒度可以存在以订单ID为基础的一条数据中,此时多个商品同时存在商品项目列中。 值域与制不同:销售系统和库存系统所包含的订单状态有不同 解决方法: 全局性的汇总统计:消除冲突并形成一份唯一的数据 数据用于数据建模: 不消除冲突也不做任何处理 整体的流程性统计分析: 不消除冲突但是是有全部的冲突数据 数据处理经验 !!!!数据的共线性