- 博客(3)
- 收藏
- 关注
原创 机器学习之混合类型数据的使用
在机器学习中,不同类型的数据(numeric, categorical, Continuous and Text data)的混合使用,一直是机器学习中数据处理的难点,处理的方式可能对模型的效果产生重要的影响。神经网络很强大,但是也没办法直接处理类别型的变量,需要经过如one-hot编码的预处理之后才能放进网络去训练。Understanding Categorical Data类别...
2018-05-22 21:15:37 10954 3
原创 提升方法之AdaBoost
对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。实际上就是“三个臭皮匠顶个诸葛亮”的道理。提升方法中最具代表性的算法是AdaBoost。
2018-05-03 15:58:07 328
原创 孤立森林(Isolation Forest)
背景现有的异常检测方法主要是通过对正常样本的描述,给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常。这些方法的主要缺点是,异常检测器只是正常样本的最优描述,但是对于检测异常并不是最优的,有可能造成大量的误报,或者只检测到少量的异常。异常的两个特点:异常数据只占很少量、异常数据特征值和正常数据差别很大。孤立森林,不再是描述正常的样本点,而是要孤立异常点,由周志华教授...
2018-05-01 22:26:04 90275 26
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人