![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 88
B11040805
这个作者很懒,什么都没留下…
展开
-
HBase介绍
摘 要 随着海量数据和云计算的发展,Hadoop集群得到了越来越广泛的应用。而HBase作为Hadoop集群的数据库同样在很多场景中大显身手。同样Hadoop集群的稳定性需要得到实时的监控。存储资源、计算资源、网络资源等发生阻塞或者错误需要及时告知集群管理员。本文实现了基于HBase的网站告警系统。本文中所开发的系统分为告警记录显示、告警记录查询、告警记录确认、告警记录入库、告警记录原创 2014-09-05 21:38:01 · 1275 阅读 · 0 评论 -
HBase的设计优化
HBase在设计时需要注意以下几个方面。1、Pre-Creating Regions的设计。默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大才进行分割。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集原创 2014-09-05 21:47:11 · 622 阅读 · 0 评论 -
hadoop概述
7.1 Hadoop概述7.1.1 Hadoop的由来Hadoop这个名字不是一个缩写,它是一个虚拟的名字。该项目的创建者Doug Cutting 解释Hadoop的得名:“这个名字是我的孩子给一头黄色的玩具大象起名的。我的命名标准是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”Hadoop是一个可编写并运行分布式应用的开源框架,常常用于大数原创 2014-09-06 10:36:46 · 1676 阅读 · 0 评论 -
hadoop的安装
一,下载相关软件Jdk Hadoop二,定义一个公共账号我们经常说,从一个节点访问另一个节点,其实是从一个用户账户访问另一个用户账号。对于hadoop,所有的节点都使用相同的账号名。因此,我们先创建一个用户。这里使用的是hadoop。三,安装SSH我们知道在hadoop集群中,需要指定一个服务器作为主节点。他作为一个基站,负责联络并激活所有从节点上的DataNode和JobTr原创 2014-09-06 10:39:33 · 825 阅读 · 0 评论 -
结合mahout的数据挖掘算法介绍
数据挖掘算法前言:数据挖掘和机器学习包含了许多的算法,算法的介绍往往是枯燥乏味的。本文中结合mahout和小例子还解释这些算法。因此我们先介绍一下mahout。准备工作:Mahout环境的搭建初识mahoutHadoop是为了大数据而生的,在之前的学习中,我们也了解了Mapreduce程序的基本原理。但是,读者对如何将Hadoop应用到大数据还是没有一个清晰地认识。相信读者朋友们了原创 2014-09-03 08:25:43 · 22701 阅读 · 0 评论 -
贝叶斯文本分类器
摘 要本文完成了基于朴素贝叶斯文本自动分类的软件设计,运用贝叶斯理论阐述了朴素贝叶斯文本分类器的基本原理。在特征独立性假设的基础上,构造了一个朴素贝叶斯文本分类器,通过样本训练该分类器,进而对测试样本分类判断。实验表明,朴素贝叶斯理论在文本分类中有很好的效果。朴素贝叶斯分类算法的原理是贝叶斯公式(见下面的公式)。原理是由果溯因方法。试验表明该算法的性能能和神经网络等数据挖掘算法相媲转载 2014-09-05 22:03:04 · 9534 阅读 · 1 评论