机器学习学习路程

     经手了第一个算是类似项目的数据吧。(老师,这数据太干净了)

     实话说,没想到自己会卡在数据预处理这里,现在想来也对,方法就那些,大不了来个集成化,最后谁更好,就看谁的数据处理的更完美。

     通过删除Time列和转化一下At列,然后检测一下离群值,删去相关性不高的列,然后进行分箱处理,再往下来却发现直接0.99了,这算是方法错了吗?自己感觉不到。

     现在想来,建立关联规则,也许方法之一,但实用吗?老师最后提了一嘴如果数据更多怎么办?

    对呀,我现在只处理二十来列数据,如果数据更多,不说结果怎样,死用关联规则,电脑也许都不一定跑得起来。

=========================================================================

    回顾了一下自己之前写的,突然感觉,自己好像钻了死胡同。

    老板要的是如何选择,如果所有数据,均对实际需求有极大的相关性,都能影响结果,那么我们机器学习算是什么也没有做。‘

    所有,正常来说,我一开始的做法是没有问题的,去掉无用数据,处理噪音、离群值。然后进行分箱、再检测相关性。

    但是如果有很多项都有很高的相关性,我们就应该要进行关联规则,简单的说,择优。是个笨方法,但我想到的却只有这个。我有一亿条数据,均对我的需求有高影响,但我不可能从一亿选择中,做出选择,写手应该给我缩减选项。

     那么关联规则如何简化,应该要回去在学一下cam

   

   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值