- 博客(5)
- 收藏
- 关注
原创 谱聚类(spectral clustering)
问题导读1.什么是谱聚类?2.unnormalized谱聚类的四个步骤是怎么来的?3.谱聚类是怎么实现的?1. 谱聚类 给你博客园上若干个博客,让你将它们分成K类,你会怎样做?想必有很多方法,本文要介绍的是其中的一种——谱聚类。 聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的
2017-02-07 15:14:14 459
原创 HBase RegionServer宕机恢复
问题导读:1.HBase的故障恢复有哪三种不同模式?2.HBase日志切分方法?3.Distributed Log Replay解决了哪些问题?HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程
2017-02-07 14:59:36 1350
原创 HBase 5种写入数据方式
问题导读:1.如何直接使用HTable进行导入?2.如何从HDFS文件导入HBase,继承自Mapper?3.如何读取HBase表写入HBase表中字段?4.如何让MR和HTable结合?Version :hadoop1.2.1; hbaes0.94.16;HBase写入数据方式(参考:《HBase The Definitive Guide》),可以简单分为下面
2017-02-07 14:44:39 1901
转载 HBase 默认配置说明(收藏版) http://www.aboutyun.com/thread-7914-1-1.html (出处: about云开发)
hbase.rootdir这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下H
2017-02-07 14:35:06 758
原创 机器学习算法
朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因
2017-02-07 11:21:07 600
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人