大数据
文章平均质量分 78
跳舞的驴子
这个作者很懒,什么都没留下…
展开
-
Kettle(Pentaho DataIntegration) 安装Hadoop-2.2.0插件
1 安装前的准备工作 1.1 Pentaho Data Integration当前的CE 版本Pentaho Data Integration 是5.0.1,下载地址:http://www.pentaho.com/download/。你也可以尝试企业版EE,这里不做介绍了。下载完成后,压缩到指定的目录下。 1.2 Hadoop 2.2.0下载最新稳定版本转载 2014-02-26 10:32:26 · 1194 阅读 · 0 评论 -
电影推荐系统的建模
11336241 叶均明一、概述由MovieLens评分数据集作为训练集(含943名用户对1682部电影的评分),根据用户信息和过往打分进行电影推荐,即允许用户对自己所看过的电影进行打分,并且根据用户历史的打分信息,为用户预测他对其他未观看的电影的打分,或预测他对其他电影的评分分类,将预测分值高的电影推荐给用户,认为这些电影是用户下一步感兴趣的电影。二、思路转载 2014-06-03 16:24:24 · 3069 阅读 · 0 评论 -
100个数据集
在寻找数据集?这里给你准备了100多个最有趣的,从柏拉图式的爱情到政治竞选再到死刑囚犯,应有尽有。 个人对“信息时代”这个名词非常不感冒,就好像随便来了个人,往过一坐,然后说:“当下的信息已经非常多了,我们该如何形容?我觉得‘信息时代’这个词不错。”个人认为这是极度不负责的,没有创意,命名者太懒了;其次,如此多的数据带来更多的是处理上的无助和绝望,用“drinking from转载 2014-06-08 09:33:41 · 5518 阅读 · 0 评论 -
数据挖掘导论
数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。数据挖掘(Data Mining)与数据库知识发现(Knowledge Discovery from DataBase)的基本知识,以及从大量有噪声、不完整、甚至是不一致数据集合中,挖掘出有意义的模式知识所涉及的概念与技术方法。 人类的各项活动都是基于人类的智慧和知识,即对外转载 2014-05-24 22:24:38 · 1157 阅读 · 0 评论 -
week3 决策树分析 R语言实现
library(tree)#读入数据soybean = read.table("soybean-large.data", header=F, sep=",")soybean_df = data.frame(soybean)header = paste("att", 1:36, sep="")names(soybean_df) = headerattach(s转载 2014-06-03 16:54:11 · 1186 阅读 · 0 评论 -
数据挖掘主要解决的四类问题
数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的。一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归转载 2014-06-03 16:45:48 · 1013 阅读 · 0 评论 -
Week3 作业
本帖最后由 罗伊斯 于 2014-5-27 21:00 编辑决策树模型其实是从ID3开始,慢慢的发展到C4.5,CART等优化进行的。详细介绍可以看这里 http://zh.wikipedia.org/wiki/决策树看到这个数据集,里面很多NA,很多?,感觉如果是数据分析师或者数据挖掘师,都会感到头疼的,因为有时候建模都是需要花大量时间来进行数据清洗。转载 2014-06-03 16:51:17 · 673 阅读 · 0 评论 -
如何通过数据挖掘做O2O
今天非常高兴有机会跟大家分享,我主要讲一下O2O产品怎么应用大数据?O2O是前一段时间炒的一直比较火的概念,Online和Offline的概念,Offline是我们做平台,整合原有的固有的线下服务。所以,我们如何通过大数据驱动这种新的应用模式的出现呢?简单先谈一谈易到用车,易到用车实际上它做的是一方面整合了所有的全国的租赁公司,因为我们看到租赁公司,或者出租公司有很多车,包括出租车,包括租赁车。什转载 2014-06-03 16:23:23 · 1009 阅读 · 0 评论 -
有趣的机器学习:最简明入门指南
在听到人们谈论机器学习的时候,你是不是对它的涵义只有几个模糊的认识呢?你是不是已经厌倦了在和同事交谈时只能一直点头?让我们改变一下吧!本指南的读者对象是所有对机器学习有求知欲但却不知道如何开头的朋友。我猜很多人已经读过了“机器学习”的维基百科词条,倍感挫折,以为没人能给出一个高层次的解释。本文就是你们想要的东西。本文目标在于平易近人,这意味着文中有大量的概括。但是谁在乎这些呢?只要转载 2014-05-12 13:29:39 · 618 阅读 · 0 评论 -
搭建高可用的MongoDB集群(上):MongoDB的配置与副本集
这篇文章看完这些问题就可以搞定了。NoSQL的产生就是为了解决大数据量、高扩展性、高性能、灵活数据模型、高可用性。但是光通过主从模式的架构远远达不到上面几点,由此MongoDB设计了副本集和分片的功能。这篇文章主要介绍副本集:mongoDB官方已经不建议使用主从模式了,替代方案是采用副本集的模式, 点击查看,如图: 那什么是副本集呢?打魔兽世界总说打副本,其实这两个概念差不多一转载 2014-04-10 21:13:00 · 528 阅读 · 0 评论 -
非常好-- Pentaho4.8 BI server搭建
一 下载解压1> 从pentaho官网http://community.pentaho.com/ 下载biserver-ce-4.8.0-stable.zip2> 解压,在biserver-ce目录下执行start-pentaho.bat,在administration-console目录下执行start-pac.bat, 分别启动user console与admin console转载 2014-03-25 18:49:05 · 1735 阅读 · 0 评论 -
kettle 做电话录音
问题: 电话录音放在mysql中,DB: unimedia , 表t_trk_sh原创 2014-05-03 20:17:22 · 886 阅读 · 0 评论 -
用Map/Reduce来做好友推荐
SNS网站都有一个功能,就是好友推荐(或者Follower推荐)。例如,在人人网上出现的“你可能认识的人”。怎么来实现呢,有一个很简单的办法。如果小刚和小明不是好友,但是他们有很多的共同好友。那么可以认为,A和B很可能相识。从图论的讲法上看,就是先列出一个人(记为小A)的所有朋友的朋友,在寻找小A和这些人之间有多少长度为2的通路。将这些通路数排序,寻找最高的那几个就可以了。所以我们转载 2014-03-28 08:32:06 · 540 阅读 · 0 评论 -
pentaho配置教程-有点复杂
原文:http://v2000.info/?p=787今天在网上看到的,写的windows下如何安装配置Pentaho,很详细,在这里给大家分享一下(:第一部分:准备工作1. 安装和配置Java从Sun Developer Network下载最新的Java JDK,安装。在Windows中配置Java运行环境:点击 “我的电脑” – “属性” – “高级转载 2014-02-19 17:20:18 · 5485 阅读 · 1 评论 -
机器学习最佳入门学习资源
原文链接: Jason Brownlee 翻译: 伯乐在线 - programmer_lin译文链接: http://blog.jobbole.com/56256/%-------------------------------------------------------------------%这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发转载 2014-02-19 16:12:34 · 588 阅读 · 0 评论 -
2014-02-19
对HBase 列存储的理解:所谓列存储,实际上就是可以把不同的列分布到不同的存储里面。增删查改时,由hadoop(理解上应该是 zookeeper)路由到不同的存储上,可以有效降低磁盘io。对于开发来说, 只要遵守 api和规范即可。原创 2014-02-19 15:19:38 · 567 阅读 · 2 评论 -
pentaho 5.0.1 迁移到mysql 数据库
一、执行sql语句,完成数据库的创建和初始化。....\biserver-ce-5.0.1-stable\biserver-ce\data\mysql5执行以下三个sql 文件,无顺序要求。 二、修改数据库连接文件1、 打开如下路径,...\biserver-ce-5.0.1-stable\biserver-ce\tomcat\webapps\pentah转载 2014-02-26 10:42:48 · 1139 阅读 · 2 评论 -
数据挖掘入门必看10个问题
NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Dat转载 2014-06-03 16:42:32 · 757 阅读 · 0 评论