个人喜好-数据挖掘思维与实战24讲-3-读后感以及笔记

5 准备数据:如何处理出完整.干净的数据?

找到数据: 通过查询数据库查找原始数据。这里路径可能会有很多,oracle,mysql,redis。excel这些都是。

数据探索: 数据变多,数据升维。 你可以理解成,你获取的数据是大量的一段话。数据分析需要拆段成句子,继续把句子拆成词语,词语可以继续进行拼音拆分。这样就是数据变多了,对应维度也不一样了。获取xx出现次数,位置,出现时候的特殊性。如果是数据,那么区间,区间波动频率,集中在某些值,最大最小值等等。

数据清洗:数据变少。第一步的数据越多越好。因为害怕遗漏。但是这一步就是有目的筛选了。

1.缺失值的处理: 删掉有缺失值的数据;补充缺失值;不做处理; (删除,补充,保持原样)

2.异常值的处理: 数据本身的错误(修正/丢弃) 数据波动导致区间拉扯很巨大(不做极端考虑去掉最高值最低值;或者极限值单独一个区间范围)

3.数据偏差的处理 :数据有美感,越是天然的数据越符合正态分布。但是存在运作团队打造的爆款。比如秋天的第一杯奶茶,就是运作团队的胜利,如果按正常的外卖,奶茶效率不可能上那么多。

4.数据标准化:不同区间,步长不一样。就好像上缴个人所得税,不同区间的人交税不一样,而且税的比重也不一样。

5.特征选择:特征维度越多,匹配上的数据越稀疏,缺失大量数据证明,模型的解释性变差,可信度变低。

构建训练集与测试集

均衡数据 定时抽取一定比例的数据做训练样品,另一部分做测试样本

非均衡的 比如在风控型挖掘项目中,风险类数据一般远远少于普通型数据,这时候使用分层抽样以保障每种类型的数据都可以出现在训练集和测试集中。

这里涉及三种方法:

留出法,就是直接把整个数据集划分为两个互斥的部分,使得训练集和测试集互不干扰,这个是最简单的方法,适合大多数场景;

交叉验证法,先把数据集划分成 n 个小的数据集,每次使用 n-1 个数据集作为训练集,剩下的作为测试集进行 n 次训练,这种方法主要是为了训练多个模型以降低单个模型的随机性;

自助法,通过重复抽样构建数据集,通常在小数据集的情况下非常适用。

准备数据是万事开头,所以也是苦累耗时长的环节。实际的数据肯定会存在些许不如意的。

不过后续的模型训练和模型评估 这个我暂时未有过深了解,所以不进行个人观点发表。

6 数据建模:该如何选择一个合适我需求的算法

分类问题:适用于 给贴标签的。

二分类 : 局限是否

多分类 : 已知给的固定 + 你可以自定义标签

多标签分类 : N标准 + N标准下的多分类

聚类问题 聚类是无监督的,也就是没有一个明确标准去衡量的,你无法给准确的定义去划分。仅能按共同点去归类。

互斥,相交,层次,模糊

第一种 基于划分的聚类,通常用于互斥小组;

第二种 基于密度的聚类,可以用来解决数据形状不均匀的情况;

第三种 基于层级的聚类,使用与需要对数据细分的情况。按职业等级,按身高,按体重。能按某个比较明确的进行分层,得到对数据细分;

第四种 基于模型的聚类

回归问题 分类方法输出的是离散的标签,回归方法输出的结果是连续值

对数据进行集中,然后按某个标准进行摆放。存在某条线 尽可能包含更多情况,并且存在符合某个规律

回归方法和分类方法可以相互转换,可以认为是将对应准确的数据直接按数据情况进行编译标签。

    		分类				回归

输出 离散数据 连续数据
目的 寻找决策边界 找到最优拟合

关联问题,关联分析 无监督学习。关联分析是要在已有数据中寻找数据的相关关系。著名案例,啤酒与尿布的故事。成年人带孩子,会给孩子买尿布时候顺手带走啤酒,成家之后压力大,但是孩子也要照顾就一手尿布一手啤酒。

模型集成 集成学习,其思路是去合并多个模型来提示整体的效果。

以下是三种方式

1.Baggin (装袋法) 构建一次,训练一个模型。最后对多个模型的结果附加一层决策,使用平均结果作为最终结果。

2.Boosting(增强法) 每次构建一次,训练一次,都作为一个特征,不断累加。

3.Stacking(堆叠法) 方法比较宽泛。对于上述二种进行扩展。多个模型进行横向扩展以及串行增强。最后再整合。属于不断调整调优的,以达到最佳效果

经过这二章的阅读,深刻感悟到自己的积累还是太少,很多东西一知半解,没有对于可以发表的东西。革命尚未成功。同志仍需努力。


漫漫长路,一个小周跟他一个小陈朋友一起努力奔跑。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值