BI
青龙白虎米老鼠
ready Go
展开
-
大数据可视化工具点评
如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解。以下是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。更加美妙的是,这些工具大多免费。 第一部分:入门级工具1.ExcelExcel的图形转载 2014-02-17 13:38:17 · 2291 阅读 · 0 评论 -
数据科学家面试常见的77个问题
【编者按】随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科转载 2013-04-11 11:29:09 · 828 阅读 · 0 评论 -
pentaho开源商业智能平台的搭建
pentaho开源商业智能平台的搭建摘要:pentaho是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。pentaho是世界上最流行的开源商务只能软件。它是一个基于ja转载 2013-03-26 11:54:01 · 1335 阅读 · 2 评论 -
Pentaho BI 服务器 每天重启一次的问题解决
工作数据库是mysql Mysql服务器默认的“wait_timeout”是8小时,也就是说一个connection空闲超过8个小时,Mysql将自动断开该connection。There is a solution introduced in the Pentaho forum for this, you can find the thread with the following原创 2013-04-09 12:14:15 · 936 阅读 · 0 评论 -
MD5加密认证问题
前几天出现MD5认证问题,同一个字符串,同一个md5加密程序,在本机和服务器上生成的md5不一致。纠结了一阵,后来老大说是机器字符集的问题。。建议统一将字符串转码成utf8格式的。设置好测试通过。原因:java的输入输出都是byte流的,而我们所取到的字符都是java平台自己将byte数据通过平台默认的编码形式将byte转换为String的。知道了原理,那么解决问题也就原创 2013-03-19 10:27:59 · 996 阅读 · 0 评论 -
Customising the Pentaho User Console (PUC)
For the past couple of weeks I have been playing around with customising the Pentaho User Console (PUC) Version 3.5.x and to follow it up I thought I would put together a multi-part post on the topic.转载 2013-03-28 16:27:10 · 4062 阅读 · 0 评论 -
Emailing Reports from the Pentaho User Console.
With the recent release of Pentaho’s BI Server 3.5.2 and Tom Barber’s (aka magicaltrout) post I thought I would put together a quick tutorial on how to use a new feature of 3.5.2 which allows end转载 2013-03-28 16:21:20 · 1355 阅读 · 0 评论 -
【完整的数据分析流程】
此图整理自微博分享,作者不详。一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分析与展现。6、专业报告。7、持续验证与跟踪。转载 2013-03-13 11:32:23 · 1841 阅读 · 0 评论 -
pentaho schema workbench publish error
发布密码和相关信息准确无误的填入后,点击OK报错如下:Nested exception: org.gjt.xpp.impl.tokenizer.TokenizerException: white space expected before attribute name and not 't' at line 1 and column 134 seen ...<file descriptio原创 2013-03-11 10:05:05 · 1414 阅读 · 0 评论 -
一个“玩”数据前辈的职业规划,值得学习和借鉴
我小时候的理想是将来做一名数学家,可惜长大了发现自己天赋不够,理想渐行渐远,于是开始考虑现实,开始做一些人生规划,我一直在思考将来从事何种职业,专注什么样的领域,重新定义着自己的职业理想。我现在的职业理想,比较简单,就是做一名数据分析师。为什么要做数据分析师?在 通信、互联网、金融等这些行业每天产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等),据说到2转载 2013-04-16 16:44:58 · 1464 阅读 · 0 评论 -
商业智能BI的三个层次-----数据报表、数据分析、数据挖掘
经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据对转载 2013-05-07 16:47:05 · 1278 阅读 · 0 评论 -
Pentaho 之Schame workbench入门实例
Introduction to Mondrian OLAP schemaby Yogaraj Khanal on December 4th, 2011IntroductionThis article demonstrates how you can design Mondrian OLAP Schema using Schema Workbench. I am using My转载 2013-05-21 14:14:38 · 3646 阅读 · 0 评论 -
用 WEKA 进行数据挖掘,第 1 部分: 简介和回归
数据挖掘是技术界的谈论话题,因为各公司都在生成有关其用户的数百万的数据点并在想方设法将该信息转变为收入的增加。数据挖掘是很多技术的共同术语,用以表达从数据中一点点地收集信息并将其转变成有实际意义的东西。本文将向您介绍开源的数据挖掘软件以及用来解析数据的最为常见的一些技术什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Ya转载 2013-05-10 12:08:54 · 1341 阅读 · 0 评论 -
用 WEKA 进行数据挖掘,第 3 部分: 最近邻和服务器端库
数据挖掘可被用来将看似无意义的数据转变成有用信息,从中得出的规则、趋势和推断可被用来提高您的业务和收入。本文将讨论最后一种常见的数据挖掘技术,“最近邻”,还会向您展示如何在您的服务器端代码内利用 WEKA Java™ 库以便将数据挖掘技术集成到您的 Web 应用程序内。简介在这个 “用 WEKA 进行数据挖掘” 系列之前的两篇文章中,我介绍了数据挖掘的概念。如果您还未曾阅读过转载 2013-05-10 12:10:37 · 1298 阅读 · 0 评论 -
星型模型与雪花模型
(星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(sum转载 2013-05-23 17:11:41 · 1003 阅读 · 0 评论 -
用 WEKA 进行数据挖掘,第 2 部分: 分类和群集
数据挖掘是很多技术的共同术语,用以表达从数据中一点点地收集信息并将其转变成有实际意义的趋势和规则来提高您对数据的理解。在本系列 “用 WEKA 进行数据挖掘” 的第 2 部分我们将讨论两种最常见的数据挖掘方法 — 分类和群集 — 利用它们可以对您的数据进行更强大的分析。简介在 用 WEKA 进行数据挖掘,第 1 部分:简介和回归,我介绍了数据挖掘的概念以及免费的开源软件 W转载 2013-05-10 12:09:57 · 1274 阅读 · 0 评论 -
数据挖掘 - 分类算法比较
随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长。对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持。为了满足这种需求,数据挖掘技术的得到了长足的发展,而分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。本文主要侧重数据挖掘中分类算法的效果的对比,通过简单的实验(采用开源的数据挖掘工具 -Weka)来验证转载 2013-05-10 12:11:27 · 23384 阅读 · 1 评论 -
如何抽取文件夹下的多个数据库文件【eg.SQLite】
由于工作需要,涉及到抽取多个sqlite文件。。考虑到不能写多个sqlite数据库的链接【不确定个数】因此和同事研究解决。1. 新建一个transA:内容如下Get File Names---》Select Values---》Copy rows to result2. 新建一个 transB:内容如下主要是处理sqlite数据库的。。形式不固定。。但是配置sqlite数据库原创 2013-05-23 13:44:45 · 1414 阅读 · 0 评论 -
报表软件等同于BI软件吗?
【IT168信息化】本文主要是一些观点上的碰撞,为了更好的让读者理解,部分地方设置了两个不同的角色进行对话。可能有些乱,不过这不是学术论文,表达一下我们在工作中遇到的一些问题,阐述一下自己的观点,大家多提宝贵意见,也可充分讨论。 一、报表≠BI 很多的人认为,报表就是BI。实际上,报表只是BI的一部分,虽然BI应用的结果通常需要通过报表来展示,但是,BI绝对不仅仅是报表。 其转载 2013-05-23 16:51:40 · 1017 阅读 · 1 评论 -
Apriori算法参数含义
使用了weka安装目录data文件夹下的contact-lenses.arff数据实验结果及分析1. 以其中一组实验为例做详细分析具体参数设置如下图: 结合实验结果阐释下列12个参数的含义1. car 如果设为真,则会挖掘类关联规则而不是全局关联规则。2. classindex 类属性索引。如转载 2013-05-07 16:22:16 · 7556 阅读 · 0 评论 -
OLAP之全过程介绍(ETL过程)
经过多年来企业信息化建设,大部分都拥有了自己的财务,OA,CRM 等软件。这些系统都有自己的独立数据库,记录着企业运行情况某个方面的数据。但是单独看这些系统的报表,并不一定能对企业运行情况有全面客观的了解。就像只凭身高不能判断一个人是否健康,所以体检的时候我们需要化验许多指标,做各种检测,就是为了对身体情况有更全面的了解,作出更准确的判断。 同样对一个企业,不能仅根据转载 2013-03-08 17:35:08 · 3251 阅读 · 0 评论 -
windows7环境下将Mondrian例子数据库导入到mysql中
1.获取需要的jar包下载mondrian-3.4.1.zip解压至C:\mondrian拷贝C:\mondrian\lib下的mondrian.war到tomcat下的webapps下重启tomcat.自动加载webapps - mondrian.war拷贝tomcat\webapps\mondrian\WEB-INF\lib下所有jar包到C:\mondrian\lib原创 2012-11-26 13:55:41 · 1814 阅读 · 1 评论 -
时间维度表的建立
SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO -- ============================================= -- Author: -- Create date: -- Description: -- =================转载 2012-11-09 09:26:18 · 2027 阅读 · 1 评论 -
BI学习之一创建一个简单的Olap多维数据集的展现
项目背景 '博客园'是一家国内的大型日化用品,生活用品生产,销售公司,它的一部分销售是放在淘宝网上进行的,在淘宝网上这家公司有多个网店,线下有系统对每个网店的销售数据通过淘宝API进行抓取保存,用于每周,月出销售情况的报表.由于报表设计到多个方面,每一次有新的搭配或者比较的话就必须让程序人员修改代码,增加修改报表的内容.现在,'博客园'想通过数据分析人员自己来控制想得到的数据报表,想到什么,转载 2012-11-09 10:57:35 · 7337 阅读 · 0 评论 -
生成Mondrian用到的schema的工具 - Workbench介绍
一、安装1、准备jdk1.5+2、下载工具:psw-ce-3.4.1.1并解压缩3、要把相应的JDBC驱动包拷贝到schema-workbench\lib下。4、修改workbench.bat文件找到“rem you should also put mondrian.properties on the calsspath for it to be picked up”这一行原创 2012-10-26 16:05:49 · 4120 阅读 · 1 评论 -
ggplot2
从ggplot2的qplot()开始,qplot()的用法与plot()有一定的相似之处,所以如果熟悉plot(),那么学习起来qplot()也不会太难。数据集使用diamonds,首先用summary()查看一下数据集的基本特性吧!数据说明:然后创建一个含有100条记录的diamonds的子集dsmall:[plain] view plaincop转载 2012-11-01 08:58:30 · 14481 阅读 · 2 评论 -
ggplot2 学习笔记
最近发现了一个文艺作图系统:ggplot2是统计软件R下面的一个包,作者Hadley Wickham现在在Rice University当Assistant ProfessorR本来的作图系统已经很强大了,但是我看到ggplot2的输出结果真的是惊为天人啊,而且它的图层概念也非常赞。可以说R的graphics包是普通作图,ggplot2是文艺作图,而SAS之类的就是二逼作图了(这里断没转载 2012-10-31 14:07:40 · 13001 阅读 · 5 评论 -
开源ETL工具kettle系列之增量更新设计技巧
ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup 步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许对其他工具也有一些帮助。本文不可能涵盖所有的情况,欢迎大家讨论。应用场景增量更新按照数据种类的不同大概可以分成:转载 2012-09-24 11:22:17 · 1251 阅读 · 0 评论 -
开源ETL工具kettle系列之常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案1. Join我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该转载 2012-09-20 12:20:13 · 1161 阅读 · 0 评论 -
R工具:连接数据库,查数据,画时间序列图,加点、文本
1.channel=odbcConnect('XXXX') 2.dd=sqlQuery(channel,"select distinct CONVERT(datetime,left(scaler,10))as date,max(amount_persecond) as cles from dm.y20120630_all where node=316 group by scaler")原创 2012-11-12 16:17:18 · 2279 阅读 · 0 评论 -
用Kettle的一套流程完成对整个数据库迁移
需求:1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle。2.你是否还在使用kettle重复的画着:表输入-表输出、创建表,而烦恼。下面为你实现了一套通用的数据库迁移流程。技术引导:实现之初,在kettle提供的例子中找到了一个类似的(samples\jobs\process all tables)。通过相关改造,终于达到目标。实现过程转载 2012-11-26 17:23:10 · 9040 阅读 · 3 评论 -
Mondrian——有影响的“艺术家” ----选择自 kswaking 的 Blog
提要:本文主要是对一个java开源项目——mondrian,OLAP引擎——的技术使用和相关概念做了简单的介绍和描述。 关键字:mondrian OLAP MDX一、引言Mondrian, 蒙得里安·皮特1872-1944荷兰画家,作品以交错的三原色为基色的垂直线条和平面为特点,他的著作包括 新造型主义(1920年),对抽象艺术的发展曾经产生很深影响。——金山词霸如是说。不过,转载 2012-11-28 11:57:11 · 700 阅读 · 0 评论 -
关于 PentahoWeka
关于 Pentaho Weka 的基本使用一、 关于 PentahoWeka 的使用过程中的基本术语介绍 1、 实例(Instance):表格里的一个横行称作一个实例,相当于统计学中的一个样本,或者数据库中的一条记录。2、 属性(Attrbute):竖行的属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。3、 关系(Relation):转载 2013-01-05 10:10:45 · 840 阅读 · 2 评论 -
数据集-用于数据挖掘、信息检索、知识发现等
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.t转载 2012-12-18 10:44:19 · 1308 阅读 · 0 评论 -
mondrian编辑器里MDX语句不支持中文问题
现象:【使用Mondrian的toolbar 中的MDX编辑器时,如果MDX语句中有中文时,点击应用后会把MDX语句中的所有中文变成乱码。】处理方法如下:【 CharsetFilter com.tonbeller.wcf.charset.CharsetFilter encoding UTF-8 chara原创 2012-12-17 17:03:17 · 2874 阅读 · 0 评论 -
mondrian --schema国际化
在用OLAP引擎Mondrian开发的过程中,会出现一个国际化(Internationalization)的问题。每个schema 对象(schema、cube、dimension、level、measure)都有一个caption 属性,表现层如Jpivot 显示的是caption 而不是真正的name。 因此我们可以自caption上做国际化处理,格式为:caption="%{}"原创 2012-12-17 17:20:51 · 1790 阅读 · 2 评论 -
kettle设计一些ETL任务时一些常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案1. Join我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该怎么转载 2012-11-21 09:43:03 · 2075 阅读 · 0 评论 -
Mondrian Schema解析
SchemaSchema 定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写MDX 语言的查询语句。这个逻辑模型实际上提供了这几个概念: Cubes (立方体)、维度( Dimensions )、层次( Hierarchies)、级别( Levels )、和成员( Members )。而一个 schema 文件就是编辑这个 schema 的一个 xml转载 2012-11-28 12:17:45 · 890 阅读 · 0 评论 -
mondrian 如何使用xml存储olap服务器的元数据
Mondrian是一个开放源代码的Rolap服务器,使用java开发的。它实现了xmla和jolap规范,而且自定义了一种使用mdx语言的客户端接口。Mondrian是olap服务器,而不是数据仓库服务器,因此Mondrian的元数据主要包括olap建模的元数据,不包括从外部数据源到数据库转换的元数据。也就是说Mondria的元数据仅仅包括了多维逻辑模型,从关系型数据库到多维逻辑模型的映射,存取权转载 2012-11-28 12:13:55 · 1185 阅读 · 0 评论 -
穷人的通用OLAP方案I+II+III-----选择自 calvinxiu 的 Blog
缘起从前到现在,用户需要从IT系统中获取信息的变化无常与程序员从传统数据库中制作报表的代价是一个永恒的矛盾。这边厢程序员为了应付客户忽然而至的报表需求痛苦不已, 客户只想要他想知道的东西,不会管查询语句有多么复杂,优化从海量数据中提取报表的速度有多么困难。 那边厢客户为了等程序员做一个报表,快则半天,慢则一周,事情都过去了。明明只想知道一样很简单的东西, 程序员却要抱怨查询是多么复杂,转载 2012-11-28 11:58:55 · 1015 阅读 · 0 评论