自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

__kingzone__的专栏

学习数据挖掘~

  • 博客(13)
  • 资源 (10)
  • 收藏
  • 关注

原创 数据仓库(九):维度设计与OWB实战:建立维表与事实表

1 维度表在星型模式中,每个维度表都分配有一个代理键(surrogate key,SK)。该列是维度表的唯一标识符,是维度表的事实主键(这里事实主键是指事实意义上的主键,能唯一标识维度表中的一行),只在数据仓库中创建。代理键在星型模式的加载过程中分配和维护。代理键没有内在的含义,通常表现为一个整数。代理键有时指的是warehouse key,是维度表的主键。维度表中也包含类似操作型系统中存

2013-05-31 17:36:22 13058 4

原创 数据挖掘(六):预测

数据挖掘的任务分为描述性任务(关联分析、聚类、序列分析、离群点等)和预测任务(回归和分类)两种。本文简介预测任务。数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信

2013-05-27 01:31:51 52562 7

原创 数据挖掘(五):聚类

聚类是数据挖掘描述任务的一个重要组成部分。数据挖掘任务包括描述性任务和预测性任务两种。描述性任务包括聚类、关联分析、序列、异常检测等,预测性任务包括回归和分类。聚类:将数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低。从这个简单的描述中,可以看出聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、密度等。1 基于距离度量对象相似性的思想

2013-05-25 22:44:45 21126 2

原创 数据仓库(八):数据仓库中数据库设计的基本模型对比--Inmon

注:本文参考Inmon的著作,Inmon支持关系模型,因此下面的观点基本都是支持关系模型的。关于多维模型的内容可参考Kimball的著作《数据仓库工具箱:维度建模的完全指南》等。广泛采用的数据库设计模型有两种:关系型和多维型。在数据仓库的设计方法中关系模型是“Inmon”方法,多维模型是“Kimball”方法。在建立数据仓库过程中,对于数据库设计而言,建立关系型数据库是最佳的长期的方法;多维模

2013-05-20 15:42:36 8912

原创 数据仓库(七):Oracle Warehouse Builder(OWB)创建数据仓库

本文简述使用OWB创建数据仓库的一般过程。Oracle的OWB是目前最好的三大ETL产品之一。OWB不但可以可以完成数据的抽取、转换和加载,还能帮助用户在Oracle数据库中创建ROLAP(Relational Online Analysis Process)和MOLAP(Multidimensional Online Analysis Process)数据仓库对象,数据质量管理,商务智能定义等。

2013-05-14 10:01:37 21632 6

原创 Oracle客户端工具连接数据库服务器问题汇总

经常遇到PL/SQL Developer等依赖Client的工具无法连接Oracle数据库服务器的问题。至今也没完全理清楚,先发个帖总结一下目前的方法,后面会不断完善。方法一:重启Oracle服务器端相关服务,包括...TNSListener,所用的数据库实例的服务。可直接在Windows的“服务”中重启。或者(可使用的命令):lsnrctl stoplsnrctl startls

2013-05-12 21:50:57 3178

原创 数据仓库(六):数据仓库的概念设计

在数据集市设计中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区别在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响概念设计的方式。数据驱动方法包括:基于实体-关系模式的设计、基于关系模式的设计、基于XML模式的设计。概念型实体-关系模式比关系型逻辑模式更具表达力。因此通常认为前者是更好的设计源。但实际情况是公司经常无法提供精确完整的实体-关

2013-05-12 15:40:54 3323

原创 数据仓库(五):数据仓库的概念建模与概念设计-Golfarelli

数据仓库设计包括3个主要阶段:概念设计、逻辑设计、物理设计。3种不同的设计场景:数据驱动的场景、需求驱动的场景、混合场景。在数据集市设计中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区别在于源数据库分析和终端用户需求分析阶段所占的比重。1. 概念建模目前普遍认可数据集市基于数据的多维视图(即采用多维模型,常用的模式包括星型模型、雪花模型),但是对于如何根据用

2013-05-10 23:06:46 5958

翻译 Java异常:选择Checked Exception还是Unchecked Exception?

Java包含两种异常:checked异常和unchecked异常。C#只有unchecked异常。checked和unchecked异常之间的区别是:Checked异常必须被显式地捕获或者传递,如Basic try-catch-finally Exception Handling一文中所说。而unchecked异常则可以不必捕获或抛出。Checked异常继承java.lang.Exce

2013-05-10 13:19:16 51490 19

原创 阿里巴巴2013实习生招聘笔试题

共7页,第1页和第6页上没有题目。答案不是标准答案,请忽略答案,大家讨论下。

2013-05-08 10:18:06 3465 1

原创 数据仓库(四):设计数据仓库--Inmon方法

(注意:本文参考的是Inmon的著作,因此主要介绍数据仓库设计的Inmon方法,即关系模型;关于维度模型,即Kimball方法可以参考本系列(二)(五)(六)等)建数据仓库主要包括两部分工作:与操作型系统接口的设计和数据仓库本身的设计。此处用“设计”一词并不准确,在数据仓库之三中我们提到数据仓库是在启发方式下建造的,即螺旋式的开发过程:首先载入一部分数据供DSS分析员使用,然后根据反馈修改数据

2013-05-04 00:30:43 10802

翻译 BitBlaze(五) - 应用及相关工作

5  Rudder:混合执行组件(由于目前还未提供Rudder,因此此部分省略)6  安全应用本节将介绍BitBlaze平台支持的各种不同安全应用,包括自动的漏洞检测,分析和防范,自动的恶意软件分析和防范,自动的模型提取和逆向工程。对于每种应用,我们基于相关程序的本质原因给出了一个新的阐释。进而我们将说明这种阐释将引导我们从本质上找到解决安全问题的新方法。最终我们将看到BitBlaze

2013-05-02 12:15:31 2807

翻译 BitBlaze(四) - 动态分析组件TEMU

4 TEMU:动态分析组件这一部分主要介绍TEMU,BItBlaze平台的动态分析组件,描述其提取操作系统级语义的组件,执行系统全局的动态污点分析,以及它的插件和实现。4.1 TEMU概述TEMU是一个基于全系统仿真器QEMU开发的全系统的动态二进制分析平台。在这个仿真器上运行一个完整的系统(包括操作系统和应用程序),并对相关二进制代码的执行进行细粒度的观察。TEMU是基于一下考量而采

2013-05-02 11:20:16 5648 1

OWB自学手册

OWB比较简单的入门手册,可以作为入门。

2013-05-31

Hadoop in Action

Hadoop in Action is an example-rich tutorial that shows developers how to implement data-intensive distributed computing using Hadoop and the Map- Reduce framework. DESCRIPTION Hadoop is an open source implementation of Google's MapReduce framework for scalable, distributed data processing. Hadoop in Action is for programmers, architects, and project managers who have to process large amounts of data offline. The book begins with several simple examples that illustrate the basic idea behind Hadoop. Later chapters explain the core framework components and demonstrate Hadoop in a variety of data analysis tasks. Throughout the book, readers will learn best practices and design patterns, and how to write meaningful programs in a MapReduce framework. KEY POINTS Explains distributed computing, MapReduce, and the Hadoop framework Focuses on most-used features and rapid development solutions Numerous hands-on examples to illustrate abstract ideas Concise, developer-centric, In Action style Multiple case studies demonstrate real-world Hadoop uses Covers popular Hadoop extensions that ease development and extend functionality

2013-01-07

All of Statistics

由美国当代著名统计学家L·沃塞曼所著的《统计学元全教程》是一本几乎包含了统计学领域全部知识的优秀教材。本书除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自助法)、独立性推断、因果推断、图模型、非参数回归、正交函数光滑法、分类、统计学理论及数据挖掘等统计学领域的新方法和技术。本书不但注重概率论与数理统计基本理论的阐述,同时还强调数据分析能力的培养。本书中含有大量的实例以帮助广大读者快速掌握使用R软件进行统计数据分析。 本书适用于统计学、数学、计算机科学、机器学习与数据挖掘等领域的高年级本科生、研究生,对于相关领域的广大科研工作者和实际工作者来说也不失为一本有价值的参考书。

2012-12-09

数据挖掘:概念与技术

这本书系统地论述数据挖掘的基本概念、基本技术和最新进展。全书分10章,全面而深入地介绍数据库技术的发展和数据挖掘的应用,数据仓库和联机分析技术,数据预处理技术(数据清理、数据集成和转换、数据归约),数据挖掘技术(数据的分类、预测、关联和聚类),先进数据库系统中的数据挖掘方法,以及数据挖掘的应用和一些具有挑战性的问题。书中注重实效,在讨论概念与技术时辅以实例,并提供代表性算法。

2012-12-09

编程珠玑.pdf

本书是计算机科学方面的经典名著。书的内容围绕程序设计人员面对的一系列实际问题展开。作者Jon Bentley 以其独有的洞察力和创造力,引导读者理解这些问题并学会解决方法,而这些正是程序员实际编程生涯中至关重要的。本书的特色是通过一些精心设计的有趣而又颇具指导意义的程序,对实用程序设计技巧及基本设计原则进行了透彻而睿智的描述,为复杂的编程问题提供了清晰而完备的解决思路。本书对各个层次的程序员都具有很高的阅读价值。

2012-11-01

C程序设计语言(第2版) 中文

C语言经典名著,Kernighan与Ritchie著

2012-11-01

OpenGL_Nehe中文教程

OpenGL_Nehe中文教程 OpenGL_Nehe中文教程

2010-04-10

杭州电子oj题集-acm

杭州电子科技acm在线评判系统离线题集 oj

2008-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除