- 博客(22)
- 资源 (7)
- 收藏
- 关注
转载 数据挖掘系列篇(27):Kaggle 数据挖掘比赛经验分享
作者:陈成龙1.Kaggle 基本介绍Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。在 Kaggle 上,企业或者研究机构发布商业和科研难题,悬赏吸引全球的数据科学家,通过众包的方式解决建模问题。而参赛者可以接触到丰富的真实数据,解决实际问题,角逐名次,赢取奖金。诸如 Google,Facebook,Microsoft 等知名科技公司
2018-01-19 14:38:31 3450
转载 有哪些好的数据来源或者大数据平台?
分享下我自己平时收集的..共100多个O_O网站分析类:百度指数 - 以百度海量网民行为数据为基础的数据分享平台Google趋势 - 了解 Google中热度上升的搜索360指数 - 基于360搜索的大数据分享平台Alexa - 网站排名Google Analytics - Google出品,可以对目标网站进行访问数据统计和分析百度统计 - 百度推出的
2018-01-07 17:19:13 15628 1
转载 白话一下什么是决策树模型
有一天,小明无聊,对宿舍玩CS的舍友进行统计,结果刚记下四行,被舍友认为影响发挥,给踢到床下去了,让我们看看可怜的小明的记录:-----------------------------武器 |子弹数量 |血 |行为-----------------------------机枪 |多| 少 | 战斗机枪 |少| 多 | 逃跑小刀 |少
2014-11-19 22:56:28 892
原创 R学习笔记——wordcloud包制作词云图
一、.wordcloud包的函数介绍1.wordcloud函数——用于制作常规的词云图wordcloud(words,freq,scale=c(4,.5),min.freq=3,max.words=Inf,random.order=TRUE, random.color=FALSE, rot.per=.1,colors="black",ordered.colors=FALSE,use
2014-04-03 13:32:18 2503
翻译 数据挖掘算法:线性回归深度剖析
线性回归介绍之一作者:未知 整理:Lestat线性回归在所有的统计方法中绝对占有不可忽视的一席之地,其用途之广泛毋庸置疑,更重要的是它是整个回归家族中最为简单、也最容易理解的方法,几乎所有的统计学教材,不管是医学统计还是社会统计抑或经济统计,线性回归绝对会有独立的章节,而其他的回归方法则很少有这种待遇。线性回归大致可分为单因素回归和多因素回归,这里的“单”和“多”是针对自变量
2014-03-05 18:34:03 6494
转载 这样做用户研究,老板们都知道吗?
近期和一些做用户研究的人员进行了交流,发现很多做这个行业的人都对自己所做的工作有些迷茫。报告写了很多,数据也分析了很多,但是却感觉对产品的实际运营帮助不大,甚至分析出来的结果和实际情况比偏差很大。其实用户研究并不是一个新兴的领域,在很多传统行业,用户研究为行业的发展发挥了巨大作用。互联网行业的用户研究实际上和传统行业有非常大的不同,但我们很多研究人员实际上还是沿用了传统市场研究的理念和方法,结
2014-03-05 10:11:18 618
转载 电商分析:网站运营不得不做的用户分析
当电子商务网站成功地把一个访客转化成一个客户之后,如何提高这个客户对于网站的忠诚度,继而增加客户对于网站的整体贡献值就变得非常重要了,因为带来一个新客户的成本是维护好一个老客户的3 ~5 倍。只有有效地提高每个客户的消费,才能快速提升电子商务网站的整体收入。最有价值客户的特征在我们的客户库中,有些客户是我们必须要保留的,而有些客户的价值是相对有限的。这里虽然说得有些现实,不过我们必须意
2014-03-05 10:10:34 1131
转载 SAS决策树:信贷风险建模试验
一、 概论决策树通过应用一系列简单的规则建立起对观测数据的分类。决策树对于观测值的分类建立在变量的输入值基础上。每条规则都是在前一条规则形成的层次的基础上对观测数据的进一步划分,而最终建立的划分层次称为决策树,每个划分段称为决策树的一个结点。最初的未进行划分的片段包括所有的观测数据称作决策树的根结点。一个结点和它所有的后续结点共同构成一颗子树。决策树中最底层的结点叫做叶子。观测数据都将会被分配
2014-02-21 13:32:22 13647 1
转载 SPSS常用函数
SPSS函数是一个常用程序(rountine),并且利用一个或多个自变量(参数)来执行。每个SPSS函数均有一个关键名称(keywordname),且绝不能写错。通常,函数的格式为:函数名称(自变量,自变量,……),某些函数可能只含有一个自变量,而有些函数则可能含有多个自变量,当一个函数含有多个自变量时,各自变量间用逗号(,)隔开,而函数的自变量通常又可分为以下三种:1)常数,如SQRT(100)
2014-02-20 13:11:31 10358
原创 常用数据分析,数据挖掘工具函数
Excel常用函数大全 http://www.52analysis.com/Excel_VBA/2044.htmlSQL函数说明大全http://www.52analysis.com/SQL/54.htmlSas常用函数http://www.52analysis.com/SPSS_SAS/51.htmlR语言的常用函数速查http://www.52an
2014-02-19 15:41:22 895 1
转载 Excel常用函数大全
我们在使用Excel制作表格整理数据的时候,常常要用到它的函数功能来自动统计处理表格中的数据。这里整理了Excel中使用频率最高的函数的功能、使用方法,以及这些函数在实际应用中的实例剖析,并配有详细的介绍。1、ABS函数 函数名称:ABS 主要功能:求出相应数字的绝对值。 使用格式:ABS(number) 参数说明:number代表需要求绝对值的数值或引
2014-02-19 15:11:26 1079
转载 从微软到谷歌,应届计算机毕业生的2012求职之路
1,简介毕业答辩搞定,总算可以闲一段时间,把这段求职经历写出来,也作为之前三个半月的求职的回顾。首先说说我拿到的offer情况:微软,3面->终面,搞定百度,3面->终面,口头offer搜狗,2面,悲剧腾讯,1面,悲剧布丁移动,3面,搞定涂鸦游戏,3面,搞定友盟,3面->CEO面,搞定雅虎,4面->终面,搞定微
2014-02-19 09:59:31 1439
转载 国美在线2014情人节报告:80后最浪漫
今年情人节,国美在线联手权威问卷调查网站SOJUMP(问卷星)做了一次关于恋爱的大规模调查,共有16000名出生在上世纪70、80、90年代的中青年参加。调查结果显示,不同年代出生的人,其态度呈现出比较明显的差别:70后恋爱更加注重生活细节和品质,追寻长相厮守;80后恋爱主义是经济实用,注重浪漫感觉;90后则是爱情至上,持久刺激是他们最主要的追求。 温馨浪漫成80后最爱
2014-02-17 16:58:44 1525
翻译 免费才是王道:盘点开发者须知的25个免费数据可视化工具
如果你还没意识到许多工具可以帮助你完成这项工作,数据可视化可能会成为一个非常头痛的问题。数据可视化的宗旨是借助图形化手段,让人们更容易的去理解数据。数据可视化工具类型包括地图、图表、图片等,同样在互联网上也存在许多数据可视化工具,但是Ali Qayyum认为没有比将要列举的这25个免费数据可视化工具来的更有效率。其中包括了使用多年的老伙计,也包括了面世不久的新贵。其中有些应用正尝试着扩宽我们处
2014-02-08 09:54:43 1307
转载 SEO菜鸟需要掌握哪些基本SEO技巧?
SEO菜鸟需要掌握的基本SEO技巧如下: 导航请确保你的网站导航都是以html的形式链接。所有页面之间应该有广泛的互联,如果无法实现这一点,可以考虑建立一个网站地图。 首页网站的首页(home或index页等)应该采用文本的形式,而不是flash等。这个文本里面要包含你的目标关键字或目标短语。 标签 这是标题标签,这里面应当包含你最重要的目标关键词。 M
2014-01-26 10:58:45 938
转载 R语言与数据挖掘学习笔记(常用的包)
原文地址:http://52analysis.com/R/1671.html 今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个小时的时间学习博客上的内容
2014-01-17 11:28:39 1388
转载 R语言与机器学习学习笔记(分类算法)(6)logistic回归
原文链接:http://www.52analysis.com/R/1628.html写在前面的废话2014,又到了新的一年,首先祝大家新年快乐,也感谢那些关注我的博客的人。现在想想数据挖掘课程都是去年的事了,一直预告着,盘算着年内完工的分类算法也拖了一年了。本来打算去年就完成分类算法,如果有人看的话也顺带提提关联分析,聚类神马的,可是,。借着新年新气象的
2014-01-16 13:59:37 9486 2
转载 R语言与机器学习学习笔记(分类算法)(5)神经网络
算法五:神经网络(优化算法)原文链接:http://www.52analysis.com/R/1627.html 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间
2014-01-16 13:58:09 2512
转载 R语言与机器学习学习笔记(分类算法)(4)支持向量机
算法四:支持向量机原文链接:http://www.52analysis.com/R/1625.html说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法回到我们最开始讨论的KNN算法,它
2014-01-16 13:56:50 1972
转载 R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯
算法三:朴素贝叶斯算法原文链接:http://www.52analysis.com/R/1624.html 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是用“少数服从多数”的办法来做出决策。正如帕斯卡指出的:“少数服从
2014-01-16 13:55:49 1855
转载 R语言与机器学习学习笔记(分类算法)(2)决策树算法
算法二:决策树算法原文链接:http://www.52analysis.com/R/1623.html决策树定义首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor
2014-01-16 13:54:25 2547
转载 R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
前言原文链接:http://www.52analysis.com/R/1622.html最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算法,朴素贝叶斯算法,支持向量机,神经网络,logistic回归。写这
2014-01-16 13:52:41 2077
集体智慧编程python
2012-10-04
Lucene+Nutch本书源码+详细说明
2012-03-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人