跋跋寒的博客

热爱大数据,热爱机器学习

Hadoop configuration源码讲解

平时,加载hadoop conf的配置时代码如下: Configuration conf = new Configuration(); conf.addResource("core-site.xml"); System.out...

2018-07-24 09:20:55

阅读数:1472

评论数:0

漫画:什么是 B+ 树?

来源:伯乐专栏作者/玻璃猫,微信公众号 - 梦见(dreamsee321) 这一次我们来介绍 B+ 树。 一个m阶的B树具有如下几个特征: 1.根结点至少有两个子女。 2.每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k &am...

2018-07-19 19:43:57

阅读数:1929

评论数:0

漫画算法:什么是 B 树?

原文地址:http://blog.jobbole.com/111757/ 伯乐在线补充:本文提到的「B-树」,就是「B树」,都是 B-tree 的翻译,里面不是减号-,是连接符-。因为有人把 B-tree 翻成 「B-树」,让人以为「B树」和「B-树」是两种树,实际上两者就是同一种树。 ...

2018-07-19 19:41:00

阅读数:1935

评论数:0

HBase - 数据写入流程解析

原文地址:http://hbasefly.com/2016/03/23/hbase_writer/众所周知,HBase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松地支撑每天10T的写入量。当然,为了支持更高吞吐量的写入,HBase还在不断地进行优化和修正...

2018-07-11 10:38:09

阅读数:1951

评论数:0

应对Hadoop集群数据疯长,这里祭出了4个治理对策!

一、背景 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。 所以我们每天都要观察集群的数据增长,观察是否有哪一天、哪个路径增长过猛了,是否增长了很多垃圾数据;继续深挖下去,...

2018-07-10 12:02:10

阅读数:3110

评论数:0

ZooKeeper故障节点替换过程详解

原文地址:http://dbaplus.cn/news-21-1240-1.html一、环境描述 我的生产环境ZooKeeper 版本3.4.6,5个节点组成的ZooKeeper集群。ZooKeeper集群为一套8个节点的Hadoop集群和HBase 集群提供高可用保障。 二、问题描述 因为某些特...

2018-07-10 11:17:38

阅读数:1919

评论数:0

kerberos认证原理

原文地址:https://blog.csdn.net/wulantian/article/details/42418231前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于...

2018-07-06 16:30:09

阅读数:1931

评论数:0

模型的评估和选择之性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需 要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure)。性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往 往会导致不同的评判结果;这意味着模型的"好坏&...

2018-07-06 15:10:01

阅读数:1973

评论数:0

ID3决策树程序实现

原文地址:https://blog.csdn.net/hongbin_xu/article/details/78516114前言之前的博客中介绍了决策树算法的原理并进行了数学推导(机器学习入门学习笔记:(3.1)决策树算法)。决策树的原理相对简单,决策树算法有:ID3,C4.5,CART等算法。接...

2018-07-03 10:39:19

阅读数:1927

评论数:0

SVM算法

原文地址:https://blog.csdn.net/hongbin_xu/article/details/78508275前言支持向量机(Support Vector Machine,简称SVM)可以说是最经典的机器学习算法之一了。这几天再看SVM,参考了一些书籍和博客,这里把自己的笔记记录下来...

2018-07-03 10:36:58

阅读数:1916

评论数:0

线性回归理论推导

原文地址:https://blog.csdn.net/hongbin_xu/article/details/77102810理论推导  机器学习所针对的问题有两种:一种是回归,一种是分类。回归是解决连续数据的预测问题,而分类是解决离散数据的预测问题。线性回归是一个典型的回归问题。其实我们在中学时期...

2018-07-03 09:39:17

阅读数:1911

评论数:0

机器学习模型的评估和选择

模型评估与选择经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为"错误率" (error rate) ,即如果在 m 个样本中有 α 个样本分类错误,则错误率 E= α/m; 相应的, 1 - α/m 称为"精度"...

2018-07-02 10:28:47

阅读数:1930

评论数:0

各领域公开数据集下载

原文地址:https://zhuanlan.zhihu.com/p/25138563金融美国劳工部统计局官方发布数据房地产公司 Zillow 公开美国房地产历史数据沪深股票除权除息、配股增发全量数据,截止 2016.12.31上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价...

2018-07-01 22:16:07

阅读数:1928

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭