大数据及数据挖掘
车库男孩
走,去软件职业技术学院读拖拉机专业
展开
-
数据挖掘过程
1. 数据清洗(data cleaning)清除数据噪声和与挖掘主题明显无关的数据2. 数据集成(data integration)将来自多个数据源重的相关数据组合到一起3. 数据选择(data selection)根据数据挖掘的目标选取待处理的数据4. 数据转换(data transformation)将数据转换为易于进行数据挖掘的数据存储形式5. 数据挖掘(data minin转载 2014-03-06 23:36:41 · 732 阅读 · 0 评论 -
Hadoop Ecosystem Map
部分系统归类:部署,配置和监控 Ambari,Whirr监控管理工具 Hue, karmasphere, eclipse plugin, cacti, ganglia数据序列化处理与任务调度 Avro, Zookeeper数据收集 Fuse,Webdav, Chukwa, Flume, Scribe , Nutch数据存储 HDFS类SQL查询数据仓库 Hive 流式数转载 2014-07-01 11:10:19 · 816 阅读 · 0 评论 -
推荐系统
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性转载 2014-04-08 14:46:55 · 795 阅读 · 0 评论 -
BigTable
BigTable是非关系的数据库,是一个稀疏的、分布式的、持久化存储的多维度排序Map。Bigtable的设计目的是可靠的处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经实现了下面的几个目标:适用性广泛、可扩展、高性能和高可用性。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括 Google Analytics、GoogleFinance、Orkut、转载 2014-04-03 15:30:46 · 786 阅读 · 0 评论 -
Python机器学习库
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化转载 2014-03-19 20:49:52 · 702 阅读 · 0 评论 -
hadoop 0.20.2下载地址
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/转载 2014-04-15 10:50:41 · 522 阅读 · 0 评论 -
决策树与决策规则
目前比较有名的决策树算法大概有上百种,其中,最有影响的当属ID3、C4.5、C5.0以及CART和CHAIDID3、C4.5都是采用贪心算法CART(Classification and Regression Tree)也称为分类回归书,只能进行二部分叉、后向修剪,分割标准用的是基尼系数CHAID(Chi-squared Automatic Interaction Detection)转载 2014-03-14 09:36:17 · 1484 阅读 · 0 评论 -
数据离散化与数据概化
离散化指把连续型数据切分为若干“段”,也称bin,是数据分析中常用的手段。切分的原则有等距,等频,优化,或根据数据特点而定。在营销数据挖掘中,离散化得到普遍采用。究其原因,有这样几点:①算法需要。例如决策树,NaiveBayes等算法本身不能直接使用连续型变量,连续型数据只有经离散处理后才能进入算法引擎。这一点在使用具体软件时可能不明显。因为大多数数据挖掘软件内已经内建了离散化处理程序,所以从转载 2014-03-14 09:08:54 · 3369 阅读 · 0 评论 -
数据归约
对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征转载 2014-03-13 17:04:02 · 1642 阅读 · 0 评论 -
数据集成与变换
数据集成冗余是数据集成时需要考虑的一个重要问题。另外一个重要问题是数据值冲突的检测与处理。数据变换平滑,聚集,数据概化,规范化和属性构造。平滑是数据清理形式,聚集和概化也是一种数据归约形式规范化:通过将属性数据按比例缩放,使之落入一个小的特定区间。1 最小-最大规范化 2 z-score规范化(零均值规范化) 3 小数定标规范化属性构造(或特征构造):由给定的属性转载 2014-03-13 16:40:36 · 1300 阅读 · 0 评论 -
ETL
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beelo转载 2014-03-13 11:11:10 · 598 阅读 · 0 评论 -
缺失值与噪声处理
缺失值处理1 忽略元组:当类标号缺少时通常这样做,多个属性缺失时,不是很有效2 人工填写缺失值:费时3 使用一个全局常量填充缺失值:如Unknown或无穷大等替换,方法简单,但是挖掘程序可能误认为Unknown有意义4 使用属性的平局值填充缺失值5 使用与给定元组属同一类的所有样本的平均值填充缺失值6 使用最可能的值填充缺失值:可以用回归、基于推到的使用贝叶斯形式化方法的工转载 2014-03-13 11:10:45 · 1467 阅读 · 0 评论 -
数据库和数据仓库区别
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西转载 2014-03-06 15:30:54 · 643 阅读 · 0 评论 -
ubuntu安装phpmyadmin注意事项
ubuntu安装phpmyadmin网上很多教程,不过有一步是没有注意的,打开"http://localhost/"显示如下Apache2 Ubuntu Default PageIt works!This is the default welcome page used to test the correct operation of the Apach原创 2015-12-22 12:26:26 · 1426 阅读 · 0 评论