跋跋寒的博客

热爱大数据,热爱机器学习

排序:
默认
按更新时间
按访问量

HBase的Region定位为什么只需一个META表

Hbase就不介绍了,直入正题。 为了让客户端找到包含特定主键的region,Hbase0.96之前提供了两张特殊的目录表-ROOT-和.META表,一下简称root和meta。 root表用来查询所有meta表中热region的位置。meta表则是用来查找所有table的region的位...

2018-09-14 13:47:59

阅读数:635

评论数:0

Hbase集群间实现数据相互同步

本次测试机器master2 、node1为第一个集群,node2、node3第二个集群,版本均为1.2.6 在第一个集群的每个节点下添加如下配置: <property> <name>hbase.repli...

2018-08-30 09:29:24

阅读数:1645

评论数:0

kafka性能测试之Comsumer

接下来看看消费者的性能测试 [root@hadoop-sh1-core1 bin]# ./kafka-consumer-perf-test.sh --help Missing required argument "[topic]" Option ...

2018-08-16 16:02:16

阅读数:1849

评论数:0

DirectKafkaInputDStream源码分析(包含动态分区感知)

先上一个官网的栗子: object DirectKafkaWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println(s&quo...

2018-08-14 09:30:42

阅读数:1928

评论数:0

Kafka性能测试之produce

在kafka的bin目录下,有两个脚本kafka-producer-perf-test.sh 和kafka-consumer-perf-test.sh,这两个脚本的作用是用来测试生产者和消费者的。 [root@hostname bin]# ./kafka-producer-perf-test....

2018-08-13 09:09:11

阅读数:1956

评论数:0

Hbase监控搭建

HBase监控主要安装三个组件jmxtrans、InfluxDb、grafana。 Jmxtrans:JMX可以对外暴露jvm内部的一些指标,但是要获取那些jvm的内部信息,就还需要自己写java程序调用jmx接口去获取数据,并按照某种格式发送到其他地方(如监控程序Graphite,Zabbix...

2018-08-07 16:36:41

阅读数:1898

评论数:0

Hadoop configuration源码讲解

平时,加载hadoop conf的配置时代码如下: Configuration conf = new Configuration(); conf.addResource("core-site.xml"); System.out...

2018-07-24 09:20:55

阅读数:1429

评论数:0

模型的评估和选择之性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需 要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure)。性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往 往会导致不同的评判结果;这意味着模型的"好坏&...

2018-07-06 15:10:01

阅读数:1885

评论数:0

机器学习模型的评估和选择

模型评估与选择经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为"错误率" (error rate) ,即如果在 m 个样本中有 α 个样本分类错误,则错误率 E= α/m; 相应的, 1 - α/m 称为"精度"...

2018-07-02 10:28:47

阅读数:1844

评论数:0

机器学习入门知识

什么事机器学习?我们会发现这里涉及很多基于经验做出的预判.例如,为 什么看到微温路面、感到和风、看到晚霞,就认为明天是好天呢?这是因为在 我们的生活经验中已经遇见过很多类似情况,头一天观察到上述特征后,第二 天天气通常会很好。为什么色泽青绿、根蒂蜷缩、敲声浊晌,就能判断出是正 熟的好瓜?因为我们吃...

2018-06-29 17:35:53

阅读数:2282

评论数:1

Hbase自定义过滤器

import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hb...

2018-06-29 17:01:31

阅读数:1879

评论数:0

Hbase-Filter算子大全

public static void ValueFilterExam() throws Exception{ Configuration config = HBaseConfiguration.create(); config.set("hbase...

2018-06-29 16:59:01

阅读数:1916

评论数:0

大数据与kafka系列之Produce源码分析(三)

上篇说了kafka produce过程中的分区和拦截器,这节继续。 int partition = partition(record, serializedKey, serializedValue, cluster); int serializedSize = Records.LOG...

2018-06-28 19:42:29

阅读数:1880

评论数:0

大数据与kafka系列之Produce源码分析(二)

上篇文章主要讲解了produce源码中元数据更新相关内容,本次主要讲解produce的分区和拦截器。private Future<RecordMetadata> doSend(ProducerRecord<K, V&...

2018-06-26 15:43:56

阅读数:1893

评论数:0

大数据与kafka系列之Produce源码分析(一)

首先一个普通的produce代码如下: final String kafkazk="localhost:9092"; String topic="testAPI"; Proper...

2018-06-25 15:14:32

阅读数:1871

评论数:1

大数据与Kafka系列之kafka消费者各种启动参数说明

建立一个普通的消费者。public static void CommonDemo() { final Properties properties = new Properties() {{ put("bootstrap.servers&am...

2018-06-21 14:10:20

阅读数:2179

评论数:0

大数据与Kafka系列之kafka生产者各种启动参数说明

首先是启动一个生产者, final String kafkazk="localhost:9092"; String topic="testAPI"; Properties properties = n...

2018-06-20 14:04:50

阅读数:1955

评论数:0

大数据与Kafka系列之你所不知道的ConsumerAPI

普通的APIpublic static void CommonDemo() { final Properties properties = new Properties() {{ put("bootstrap.servers&quo...

2018-06-19 13:43:25

阅读数:1892

评论数:0

大数据与Hadoop系列之分布式文件系统(二)

Linux文件系统前面介绍了文件系统的基本原理,本文通过Linux文件系统进一步深入分析文件系统的具体设计方法。 Linux的本地文件系统包括:Ext2 (Second Extended Filesystem,第二扩展文件系统)Ext3 (ThirdExtended Filesystem,第三扩展...

2018-06-15 10:01:03

阅读数:1844

评论数:0

大数据与Hadoop系列之分布式文件系统(一)

文件系统早在 1965 年开发的 Multies ( UNIX 的前身)就详细地设计了文件系统,这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信.息的长期存储,并达到如下要求:1.能够存储大量的信息。2.使用信息的应用终止时,信息必须保存下来。3.多个应用可以并发地存...

2018-06-14 10:51:51

阅读数:1899

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭