小游老师

个人网站:http://cador.cn(闲书阁)

R语言中样本平衡的几种方法

在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。不平衡分类是一种有监督学习,但它处理的对象中有一个类...

2017-06-06 21:39:07

阅读数 3610

评论数 0

用R语言绘制动态地图,代码奉上!(REmap包详解)

options(remap.ak="MY07CLhm3wKi4N2tQ6WP4kzz21BBZagI") 安装包 library(devtools) install_github('badbye/baidumap') install_github('lchiffon/REmap...

2017-05-30 22:09:32

阅读数 11430

评论数 3

R语言数据处理详解

数据挖掘实战,手把手教会你

2017-05-30 09:58:11

阅读数 953

评论数 0

R语言基础

数据挖掘实战,手把手教会你

2017-05-30 08:58:24

阅读数 545

评论数 0

外推预测法(R语言预测实战-节选)

外推预测法是根据过去和现在的发展趋势推断未来的一类方法的总称。因为外推预测法基于过去的行为数据,所以它是保守的。通常可以使用时间序列数据或横截面数据进行外推预测。对于横截面数据进行外推的情况,比如可以使用一些州枪支法律改变的行为反应来预测其它州的反应。当外推的结果与真实的结果不一致时,外推就不再保...

2017-05-29 20:47:31

阅读数 1589

评论数 0

R语言预测初步(R语言预测实战-节选)

经过上一节的介绍相信各位读者已经知道如何安装R及R程序包。本节拟通过一个简单的例子说明用R语言进行预测的主要步骤,旨在让各位读者了解用R语言进行预测的基本过程。本例使用forecast包中自带的数据集wineind,它表示从1980年1月到1994年8月,由葡萄酒生产商销售的容量不到1升的澳大利亚...

2017-05-29 20:42:15

阅读数 3398

评论数 1

R语言lattice包介绍

lattice包是一个非常强大地高级绘图程序包,由Deepayan Sarkar编写,这个程序包使20世纪90年代初期在贝尔实验室发展起来的特雷里斯图形框架(Trellis)变成了现实。 lattice包很容易实现单变量或多变量的数据可视化,生成的图形为栅栏图。在一个或多个其它变量的条件下,栅栏图...

2017-05-29 20:33:07

阅读数 3650

评论数 0

基于redis和R语言构建并行计算平台(yiyou)

最近研究gearman时发现不少问题,关于队列持久化的问题搞了半个月还是没能解决,并且国内可以参考的资料太少,所以考虑换一种方案试试。如下贴出gearman集群的架构: 可以看到该架构存在的问题,当持久化不起作用时,只能通过多台JobServer同时运行的方式保证集群的正常运作。另外cl...

2015-05-10 23:28:48

阅读数 1284

评论数 0

我的大数据方法论:求扔砖

对于数据分析师而言,掌握一套方法论至关重要。搞数据挖掘,需要知道CRISP-DM,5A以及SEMMA三种过程模型或方法论。然而对于大数据,对于各位打算成为数据科学家的读者,是否想过总结一套适合自己的大数据方法论呢?这里抛出拙著,希望广泛讨论,不足之处,敬请赐教~ 整体构思: 有观点认为大数...

2015-04-18 08:39:18

阅读数 1185

评论数 0

数据分析是模型驱动还是数据驱动?

在讨论这个问题之前,需要理解清楚模型驱动与数据驱动两个词的含义。到底什么是模型驱动?从认识世界的角度来讲,我们理解的制度、礼仪、道德等等,基本上都可以理解为模型,通过这些模型,我们可以清楚地明白哪些是好的,哪些是坏的,哪些该做,哪些不该做。然而在数据侧,在业务理解上,也可以类似地理解。我们需要梳理...

2014-12-13 19:29:01

阅读数 4574

评论数 2

关于无序分类变量量化的处理思考

想必各位用过数据挖掘算法的朋友都会遇到一个问题,就是如何对分类变量进行量化,这个在回归建模或求距离的时候经常遇见。 在此,我把这个问题分解成三个子问题,如下: (1)对有序分类变量的量化。 (2)对逻辑变量的量化。 (3)对无序分类变量的量化。 首先,对有序分类变量的量化,这个比较简单,...

2014-12-02 21:15:10

阅读数 3814

评论数 1

想法、方法和做法

今天遇到一件事情,在反思的过程中,脑海里出现了这三个词:想法、方法和做法。我觉得很有必要深入梳理一下,以为后面做事提供些参考和思路。其实,这三个词,大家再熟悉不过了,但是与某件事情关联在一起之后,就难以理解它们之间的关系及相互影响。结合自己多年的经验和感悟,这里花点时间谈谈我的浅薄理解。    ...

2014-11-29 09:25:52

阅读数 923

评论数 0

机器学习算法汇总:人工神经网络、深度学习及其它

转载自:http://blog.csdn.net/icyzbb/article/details/37883461 学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。...

2014-11-22 17:16:02

阅读数 772

评论数 0

Gradient Boosting and GBDT

转载自:http://blog.csdn.net/brandohero/article/details/39209009

2014-11-22 17:13:37

阅读数 1061

评论数 0

计算机视觉、机器学习相关领域论文和源代码大集合

转载自:http://blog.csdn.net/nulidezhu/article/details/26474109 一、特征提取Feature Extraction: ·         SIFT [1] [Demo program][SIFT Library] [VLFe...

2014-11-22 17:11:47

阅读数 560

评论数 0

收集了一些python的文章

转载自:http://blog.csdn.net/xyw_blog/article/details/9128777 newthreading - safer concurrency for Python 安全并发(1回应) http://www.starming.com/index.php?ac...

2014-11-22 17:10:35

阅读数 1117

评论数 0

投资投机经典著作55本

转载自: Value建议阅读的投资经典55本(ZT)    【 发布:薄荷  2006-02-11 11:45  薄荷清凉   浏览/回复:854/7】       金融机构类   《华尔街巨人》 【美】华尔街日报编辑部 海南出版社   《沃尔特·瑞斯顿与花旗银行》 【...

2014-11-22 17:09:26

阅读数 4412

评论数 0

CV方面的各种大神

转载自:http://blog.csdn.net/kts_3/article/details/9326117 原文地址:机器学习牛人主页及相关会议,论文,期刊作者:小深 国际顶级会议 AAAICIKM 2010CIKM 2011COLT 2010COLT 2011Comput...

2014-11-22 17:06:15

阅读数 2695

评论数 0

机器学习、数据挖掘之中国大牛

转载自: 推荐几个机器学习和数据挖掘领域相关的中国大牛: 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言...

2014-11-22 17:05:03

阅读数 1828

评论数 0

Stanford机器学习---第五讲. 神经网络的学习 Neural Networks learning

转载自:http://blog.csdn.net/dan1900/article/details/17787917 本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regulariz...

2014-11-22 17:04:00

阅读数 772

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭