- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 特征处理之一——如何处理连续型特征
对于传统的机器学习、数据挖掘问题,在CV、NLP领域之外,一般而言特征工程是很重要的。 对特征进行异常处理亦或是组合的时候往往需要考虑实际业务,但是在实际业务之外,也有那么一些常规的技巧可以遵循。 特征中的一大类别——连续型特征如何处理? 1、原始特征 没错,来句废话……连续型特征的原始形态就可以作为模型的输入,无论是linearRegression、神经网络,...
2019-01-31 00:28:01 3514
原创 数据挖掘竞赛总结——津南数字制造算法赛
用十天左右的时间参加了阿里天池最近的津南数字制造算法赛的赛场一,名次159,复赛都没进去,但是通过这次比赛,了解到了理论如何应用于实际,也发现了算法理论并不是实际应用唯一的部分。以下是我认为实际应用中重要的几个点: 1、异常值检测、处理。 2、特征的连续值和离散值处理。 3、特征工程——根据领域知识制造特征。 4、特征选择。 5、算法选择、参数调优。 在实...
2019-01-24 17:14:22 1457 17
原创 lightgbm学习——A Highly Efficient Gradient Boosting Decision Tree 生翻
3.2小结的理论分析,虽然翻译了却不很理解这个公式,过路前辈还请不吝简单讲解。
2019-01-24 16:16:39 286
原创 机器学习笔记之十四——预测值的偏差、原始数据的方差
偏差是什么? 为什么我说是预测值的偏差?这个值实质上,就是实际的label值与模型预测的label值之间的差值。这个十分容易理解,一般情况下,我们提升模型效果都是冲着降低偏差来的。方差是什么? 在概率论、统计学等书本中都有会方差的介绍,方差(和标准差)表示的,就是一列数据的离散程度,值越大,离散程度越大。 下图很好的展示了这个概念。 一...
2019-01-14 19:06:46 6348 1
原创 机器学习笔记之十三——对GBDT的疑问:GBDT的负梯度为什么近似于提升树的残差
先验知识: 提升树的优化目标: ,其中yi为真实label,为第m-1个模型,为残差。 ——公式来自 李航《统计学习方法》P148...
2019-01-07 16:28:55 3142 4
原创 深度学习笔记之二 —— 神经网络 & 反向传播
进入深度学习世界,就是进入人工神经网络的世界。人工神经网络(英语:Artificial Neural Network,ANN),简称神经网络(Neural Network,NN)或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工...
2019-01-05 15:01:16 371 1
原创 深度学习笔记之一—— 生翻 deeplearning(2015,Yann LeCun, Yoshua Bengio & Geoffrey Hinton)
2019-01-03 19:02:33 978 1
xiaoshuo_03_6-6.zip
2019-06-11
sparkstreaming2.3_kafka0.8_jar包集合
2018-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人