- 博客(8)
- 收藏
- 关注
原创 kaggle的手写识别比赛(python sklearn-KNN)
如果你想知道怎么玩一下kaggle?那这篇文章就非常适合你了。Kaggle练手项目:https://www.kaggle.com/c/digit-recognizer 0~9的手写体识别。项目简要:训练集:第一列为标签列,其余784列为对应像素点的明亮程度(28*28的图像)测试集:给你N*784列的像素点,让你判断这N样本的手写输入。解题思路:使用KNN算法,测算临近5个训练集是什么数字,选择投票最高的。
2016-02-28 23:46:33 3141 1
原创 BP神经网络(python代码)
神经网络是深度学习的基础。个人理解神经网络就是可以拟合任何一种广义线性模型的结构,本文主要记录python代码的学习笔记。
2016-02-23 17:34:02 16550 7
原创 银行风控案例-python学习笔记
前言:风险控制是挖掘中最为常见的应用,属于监督学习的“分类器”使用案例。我们通过以往历史数据判断用户违约的概率。本文使用了Logistic Regression 方法完成案例。注:根据CDA课程自己总结的学习笔记。使用的是ipython,数据及代码都已上传至个人网盘http://pan.baidu.com/s/1ntR2tmD。如果有任何问题或错误欢迎各位指正 liedward@qq.com谢谢。
2016-02-14 14:56:45 16646 24
转载 奇异值分解(SVD) --- 几何意义
PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把 这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理 解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。原文:We recommend a si
2016-02-06 11:44:29 783
原创 机器学习人群扩散(LPA算法)
1、 业务场景说明:2、 从业务映射到机器学习:3、 友商应用资料:4、 LPA方法原理:[1][3]5、 特征过滤的解决方案:[4]6、 R语言试验7、 总结(仅个人观点,欢迎指出错误):附录:一、常见的半监督学习大类:[2]二、参考文献:三、代码1、 业务场景说明
2016-02-03 17:44:19 15859
原创 机器学习框架
图:机器学习框架1、 特征库:特征库就是我们获取用户信息的源头,所有的挖掘判断全部都需要从这个特征库开始,所以特征库的好坏很大程度上决定了整个数据挖掘的好坏。(名言:垃圾进垃圾处出。再好的算法,如果没有准确的信息量做支撑,也不可能预测出好的结果。)特征库不等于用户画像,特征库是用户画像的底层建设。通常维度与指标是越细越好,比如用户最近一次访问时长,用户最近两次访问时长,用户1,3
2016-02-03 16:04:22 1796
转载 (转)SSE,MSE,RMSE,R-square指标讲解
SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom
2016-02-03 14:37:34 129328 17
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人