R语言数据挖掘资料

最新推荐文章于 2023-09-21 10:36:04 发布

红豆和绿豆

最新推荐文章于 2023-09-21 10:36:04 发布

阅读量1.8k

点赞数

分类专栏：数据挖掘 R 文章标签：数据挖掘 r语言

数据挖掘同时被 2 个专栏收录

54 篇文章 2 订阅

订阅专栏

47 篇文章 7 订阅

订阅专栏

R语言数据挖掘资料

一、分类

1）决策树分类

http://blog.sina.com.cn/s/blog_6fb7db430100veen.html，包含理论知识与rpart包实例。

http://blog.csdn.net/yujunbeta/article/details/14986219，包含算法的自行实现，以及RWeka包的C4.5算法、tree包的CART算法。

2）神经网络

http://blog.csdn.net/yujunbeta/article/details/17201103，重点关注BP神经网络算法的自行实现（权值调整改进为动量因子）和nnet包的手写数字识别案例；手写数字案例的数据下载地址是 http://pan.baidu.com/s/1DuXFi。

3）逻辑回归

http://eml.berkeley.edu/~train/software.html

离散选择模型大师Kenneth Train的个人主页，提供了matlab、R和GAUSS的源代码。个人推荐R代码中的RSGHB包，采用的估计方法是Hierarchical Bayes算法，相比传统的Maximum Simulated Likelihood方法而言能够有效地规避最大化可能带来singular问题。RSGHB包让用户自定义likelihood函数，因此非常灵活，可用于估计逻辑回归、Multinomial Logit、Nested Logit、Mixed Logit、Latent Class、Ordered Logit/Probit等模型。

主要函数doHB(likelihood, choicedata, control)： likelihood为用户自定义函数，用于计算每个observation的概率，计算时使用的数据格式随意，可以是一个observation一行，也可以是一个alternative一行，用户只要保证能得到正确的likelihood即可；choicedata，需要提供两个信息，一个是observationID，可以是复合型的，即用户ID+choice situation，另一个是该observation对应的选择结果；control是MCMC过程的控制参数，包括模型名称、warm up iteration次数、收敛后sampling次数等。

关于离散选择模型的理论知识，强力推荐Kenneth Train的书籍Discrete Choice Methods with Simulation，在这个链接可以免费下载http://eml.berkeley.edu/books/choice2.html

http://blog.csdn.net/yujunbeta/article/details/17926443

对逻辑回归的原理进行了比较简单的介绍，包含R语言mlogit包和nnet包中multinorm的应用。

http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning
深度学习大师Andrew Ng的课程，讲述了线性回归、逻辑回归和正则项的基本知识，对梯度下降法、牛顿法的讲解深入浅出，并提供了matlab源代码。R代码的实现版本请参考本博客的相应文章。

http://blog.csdn.net/itplus/article/details/21896619

系统地介绍了经典的极大似然估计方法，包括牛顿法、拟牛顿法（DFP、BFGS）、L-BFGS算法。

http://www.csdn.net/article/2014-02-13/2818400-2014-02-13；http://www.cnblogs.com/kobedeshow/p/3603148.html?utm_source=tuicool

应用Map-Reduce并行化逻辑回归