2016年02月_骆驼算法学习笔记

原创 kaggle的手写识别比赛（python sklearn-KNN）

如果你想知道怎么玩一下kaggle？那这篇文章就非常适合你了。Kaggle练手项目：https://www.kaggle.com/c/digit-recognizer 0~9的手写体识别。项目简要：训练集：第一列为标签列，其余784列为对应像素点的明亮程度（28*28的图像）测试集：给你N*784列的像素点，让你判断这N样本的手写输入。解题思路：使用KNN算法，测算临近5个训练集是什么数字，选择投票最高的。

2016-02-28 23:46:33 3141 1

原创 BP神经网络（python代码）

神经网络是深度学习的基础。个人理解神经网络就是可以拟合任何一种广义线性模型的结构，本文主要记录python代码的学习笔记。

2016-02-23 17:34:02 16550 7

原创梯度下降实现案例（含python代码）

梯度下降实现案例（含python代码）

2016-02-16 23:42:07 31383 2

原创银行风控案例-python学习笔记

前言：风险控制是挖掘中最为常见的应用，属于监督学习的“分类器”使用案例。我们通过以往历史数据判断用户违约的概率。本文使用了Logistic Regression 方法完成案例。注：根据CDA课程自己总结的学习笔记。使用的是ipython，数据及代码都已上传至个人网盘http://pan.baidu.com/s/1ntR2tmD。如果有任何问题或错误欢迎各位指正 liedward@qq.com谢谢。

2016-02-14 14:56:45 16646 24

转载奇异值分解(SVD) --- 几何意义

PS：一直以来对SVD分解似懂非懂，此文为译文，原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰，实属不易。原文举了一个简单的图像处理问题，简单形象，真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解，比如个性化推荐中应用了SVD，文本以及Web挖掘的时候也经常会用到SVD。原文：We recommend a si

2016-02-06 11:44:29 783

原创机器学习人群扩散（LPA算法）

1、业务场景说明：2、从业务映射到机器学习：3、友商应用资料：4、 LPA方法原理：[1][3]5、特征过滤的解决方案：[4]6、 R语言试验7、总结（仅个人观点，欢迎指出错误）：附录：一、常见的半监督学习大类：[2]二、参考文献：三、代码1、业务场景说明

2016-02-03 17:44:19 15859

原创机器学习框架

图：机器学习框架1、特征库：特征库就是我们获取用户信息的源头，所有的挖掘判断全部都需要从这个特征库开始，所以特征库的好坏很大程度上决定了整个数据挖掘的好坏。（名言：垃圾进垃圾处出。再好的算法，如果没有准确的信息量做支撑，也不可能预测出好的结果。）特征库不等于用户画像，特征库是用户画像的底层建设。通常维度与指标是越细越好，比如用户最近一次访问时长，用户最近两次访问时长，用户1,3

2016-02-03 16:04:22 1796

转载（转）SSE,MSE,RMSE,R-square指标讲解

SSE(和方差、误差平方和)：The sum of squares due to errorMSE(均方差、方差)：Mean squared errorRMSE(均方根、标准差)：Root mean squared errorR-square(确定系数)：Coefficient of determinationAdjusted R-square：Degree-of-freedom

2016-02-03 14:37:34 129328 17

骆驼分析师的博客