hutonm-CSDN博客

原创 kafka SparkStreaming读取数据笔记

取决于 enable.auto.commit” enable.auto.commit” -> (true: java.lang.Boolean) 可以保存offset，可以读取错过消息。（即使没有checkpoint）不开自动提交的话 offset取决于 auto.offset.reset” 0.9以后offset已经和zk没关系

2018-01-17 12:07:29 374

原创 Maven 本地仓库的配置以及与 Idea 配置

来到新公司实习,没有Maven感觉很难受,决定自己配一个下载地址:http://maven.apache.org/download.cgi下载Maven3.0,比以前的Maven 2性能更好，而且完全兼容Maven 2。注意 : 下载bin文件配置环境变量修改配置文件进入Maven目录下conf目录 D:\Maven\apache-maven-3.5.2\conf创建 repository目

2017-12-29 09:40:49 1083

IDEA本地运行Spark配置log4j过滤Spark INFO信息提示：Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties点击File->ProjectStructure->Libraries 大概可以得知Spark的jar包在我自己的Maven仓库下：F:\tools\LocalWareh

2017-11-29 17:21:26 653

转载 HBase体系结构

一、hbase是什么？HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世之初，就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲，HBase不折不扣是一个数据库，与我们熟悉的Oracle、MySQL、MSSQL等一样，对外提供数据的存储和读取服务。而从应用的角度来说，HBase与一般的数据库又有所

2017-11-28 17:53:23 453

原创 HBase命令笔记

记忆力太不好了，决定写到博客实时查询。名称命令表达创建表 create ‘表名’, ‘列族名1’,’列族名2’,’列族名N’ 查看所有表 list 描述表 describe ‘表名’ 判断表存在 exists ‘表名’ 判断是否禁用启用表 is_enabled ‘表名’ 、is_disabled ‘表名’ 添加记录 put ‘表名’,

2017-11-27 21:00:55 221

原创 Kafka producer无法发送消息解决办法

在虚拟机搭建了kafka集群，在集群内使用Shell可以成功发送消息创建Topic。但是在外部使用API无法发送消息，但是能创建topic 具体原因Hostname and port the broker will advertise to producers and consumers. If not set, it uses the value for “listeners” if co

2017-11-24 14:32:16 16164 6

转载 Java NIO Selector

Selector（选择器）是Java NIO中能够检测一到多个NIO通道，并能够知晓通道是否为诸如读写事件做好准备的组件。这样，一个单独的线程可以管理多个channel，从而管理多个网络连接。为什么使用Selector?仅用单个线程来处理多个Channels的好处是，只需要更少的线程来处理通道。事实上，可以只用一个线程处理所有的通道。对于操作系统来说，线程之间上下文切换的开销很大，而且每个线程都要占

2017-11-14 13:10:41 184

转载 Java NIO Channel

Java NIO的通道类似流，但又有些不同：既可以从通道中读取数据，又可以写数据到通道。但流的读写通常是单向的。通道可以异步地读写。通道中的数据总是要先读到一个Buffer，或者总是要从一个Buffer中写入。正如上面所说，从通道读取数据到缓冲区，从缓冲区写入数据到通道。如下图所示： Channel的实现这些是Java NIO中最重要的通道的实现：FileChannelDatagra

2017-11-14 11:33:17 234

转载 Java NIO Buffer

Java NIO中的Buffer用于和NIO通道进行交互。如你所知，数据是从通道读入缓冲区，从缓冲区写入到通道中的。缓冲区本质上是一块可以写入数据，然后可以从中读取数据的内存。这块内存被包装成NIO Buffer对象，并提供了一组方法，用来方便的访问该块内存。NIO中的关键Buffer实现有：ByteBuffer, CharBuffer, DoubleBuffer, FloatBuffer, Int

2017-11-14 11:06:32 203

原创 Maven构建Hadoop工程

前言爬取当当网图书出版信息，并统计每年每月出版总量使用python将数据进行处理，抛弃无用数据后只剩下出版日期然后就和wordcount一样了一、Hadoop依赖hadoop-commonhadoop-hdfshadoop-mapreduce-client-corehadoop-mapreduce-client-jobclienthadoop-mapreduce-client-com

2017-11-13 20:50:26 433

原创 Java垃圾回收机制

如何确定某个对象是垃圾： 1.引用计数法 2.可达性分析法典型的垃圾回收算法： 1.Mark-Sweep（标记-清除）算法 2.Copying（复制）算法（把内存分为两块，使能够使用的内存缩减到一半） 3.Mark-Compact（标记-整理）算法 4.Generational Collection（分代收集）算法

2017-11-13 08:57:37 172

原创 Windows10下安装Scrapy

Windows10 安装scrapy本篇主要介绍如何在Windows下如何安装scrapy环境：Win10(64位）， Python3.6（64位）打开命令行窗口，确认Python和pip被正确安装 python -V pip -V安装wheel pip install wheel安装Twisted pip install Twisted安装lxml pip insta

2017-11-12 18:42:02 504