首席撩妹指导官-CSDN博客

原创 flume读取日志数据写入kafka 然后kafka+storm整合

一、flume配置flume要求1.6以上版本flume-conf.properties文件配置内容，sinks的输出作为kafka的product[html] view plain copya1.sources = r1 a1.sinks = k1 a1.channels = c1 # Desc

2017-12-12 11:59:03 5684

转载使用Thrift API监控Storm集群和Topology

如要监控Storm集群和运行在其上的Topology，该如何做呢？Storm已经为你考虑到了，Storm支持Thrift的C/S架构，在部署Nimbus组件的机器上启动一个Thrift Server进程来提供服务，我们可以通过编写一个Thrift Client来请求Thrift Server，来获取你想得到的集群和Topology的相关数据，来接入监控平台，如Zabbix等，我目前使用的就

2017-12-12 11:39:08 545

原创整数与字节数组的转换

这里简单记录下两种转换方式：第一种：1、int与byte[]之间的转换（类似的byte short,long型）[java] view plain copy/** * 将int数值转换为占四个字节的byte数组，本方法适用于(低位在前，高位在后)的顺序。和bytesToInt（）配套使用 * @

2017-12-11 17:10:07 6261

原创 Storm 笔记 nc集成log输出 hashmap.clear() storm集成kafka maven复制jar包到共享目录下

Topology:有向图，顶点是计算，边是数据流。Install dependencies on Nimbus and worker machinesNext you need to install Storm's dependencies on Nimbus and the worker machines. These are:Java 7Pyth

2017-12-11 14:09:00 621

原创 Ubuntu新建用户

Linux系统用户账号的管理用户账号的管理工作主要涉及到用户账号的添加、修改和删除。添加用户账号就是在系统中创建一个新账号，然后为新账号分配用户号、用户组、主目录和登录Shell等资源。刚添加的账号是被锁定的，无法使用。添加新用户是在root根目录下添加的，因此我们首先切换到root目录下首先执行sudo passwd,输入当前用户密码；接着设置root密码，输入确认密码；

2017-12-11 11:19:04 464

原创 pig课件框架组件安装配置使用运算符运行脚本常用函数

Apache Pig架构用于使用Pig分析Hadoop中的数据的语言称为 Pig Latin ，是一种高级数据处理语言，它提供了一组丰富的数据类型和操作符来对数据执行各种操作。要执行特定任务时，程序员使用Pig，需要用Pig Latin语言编写Pig脚本，并使用任何执行机制（Grunt Shell，UDFs，Embedded）执行它们。执行后，这些脚本将通过应用Pig框架的一系列转换来生成

2017-12-08 11:27:02 2145

原创 sqoop 原理中文手册 split by --m理解

MySQL里的数据）通过Sqoop Import HDFS 里和通过Sqoop Export HDFS 里的数据到（MySQL）（五）　　下面我们结合 HDFS，介绍 Sqoop 从关系型数据库的导入和导出一、MySQL里的数据通过Sqoop import HDFS　　它的功能是将数据从关系型数据库导入 HDFS 中，其流程图如下所示。

2017-12-08 09:02:59 10176

原创 spark用程序提交任务到yarn Spark自定义分区(Partitioner) textfile使用小技巧 createDirectStream

因为spark文档中只介绍了两种用脚本提交到yarn的例子，并没有介绍如何通过程序提交yarn，但是我们的需求需要这样。网上很难找到例子，经过几天摸索，终于用程序提交到yarn成功，下面总结一下。先介绍官网提交的例子，我用的是spark 0.9.0 hadoop2.2.0一.使用脚本提交1.使用spark脚本提交到yarn，首先需要将spark所在的主机和hadoop集群之

2017-12-07 16:57:10 914

原创 spark 使用中会遇到的一些问题及解决思路 spark-shell命令行执行spark hql

内存溢出问题在Spark中使用hql方法执行hive语句时，由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析，并且使用Cglib等进行序列化反序列化，中间可能产生较多的class文件，导致JVM中的持久代使用较多，如果配置不当，可能引起类似于如下的OOM问题：Exception in thread "Thread-2" java.lang.Ou

2017-12-07 16:53:33 3307

原创 shell执行scala脚本

新建一个helloworld.sh如下：[plain] view plain copy#!/bin/sh exec scala "$0" "$@" !# case class Person(name:String) object HelloWorld { def main(args

2017-12-07 16:50:46 1269

原创 scala 解析json字符串 scala 两种方法实现单词计数

scala中自带了一个scala.util.parsing.json.JSON然后可以通过JSON.parseFull(jsonString:String)来解析一个json字符串，如果解析成功的话则返回一个Some(map: Map[String, Any])，如果解析失败的话返回None。所以我们可以通过模式匹配来处理解析结果：[plain]

2017-12-07 16:49:26 1848

原创 Hadoop 节点服役退役上线下线集群再平衡

slaves只是决定在你启动集群的时候哪些数据节点会起来，并不决定连不连接到NN，你也可以不添加在slaves中，手动去启动。这个文件不需要分发修改配置文件hdfs.site.xml实现数据再平衡：退役

2017-12-07 16:20:30 1161

原创 protobuf 使用相关

google protobuf的介绍和使用官方地址为：https://developers.google.com/protocol-buffers/先总结一下如何在eclipse中轻松的使用protobuf.首先需要安装一个插件叫protobuf-dt,介绍及安装说明：https://code.google.com/p/protobuf-dt/These

2017-12-07 09:52:46 337

原创 hive相关问题总结

hive mysql 中文乱码问题研究。首先mysql 字符集修改1：[client] 下面增加：default-character-set = utf82：[mysqld]下面增加：character-set-server = utf83：[mysql] 下面增加：default-character-set = utf84:重启mysql数据库：service

2017-12-07 09:47:00 908

原创 flume拦截器使用

log4j.properties配置：log4j.rootLogger=INFOlog4j.category.com.besttone=INFO,flumelog4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppenderlog4j.appender.flume.Hostname = loc

2017-12-07 09:36:58 530

原创 pig 笔记

map：key 是char array ；value 可以任意类型。[’name’#’bob’,’age’#55]:创建一个包含 name 和 age 两个键的map。tuple：是一个定长，无须相同类型。（’bob’,55）:创建一个包含两个字段的tuple 常量。bag：是一个无序的tuple集合。无须加载到内存中的数据类型。{(‘b

2017-12-05 15:33:15 509

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

2017-12-05 10:30:42 502

原创 Kafka 笔记

配置环境变量KAFKA_HOME 和 path 想创三个副本的topic上面还需要开启一个服务server-3核心部分：第一条后面是：并缓存以及清理到磁盘第九条：并能够通过zk的watcher callback机制实时进行更新每台上的broker.id不同即可，上面zk的连接用逗号分隔

2017-11-29 17:59:44 296

原创 Hive优化

优化手段合理控制Map和Reduce数合并小文件避免数据倾斜，解决数据倾斜减少job数（合并Job、大Job分拆……）一、 Map数和Reduce数Hive官方：https://cwiki.apache.org/confluence/display/Hive/Home 1.1、Map数Map数过大 Map阶段输出文件太小，产生大量小文件...

2017-11-29 16:13:56 336

原创 flume 自定义source，sink，channel，拦截器

按照以往的惯例，还是需求驱动学习，有位网友在我的flume学习五中留言提了一个问题如下：我想实现一个功能，就在读一个文件的时候，将文件的名字和文件生成的日期作为event的header传到hdfs上时，不同的event存到不同的目录下，如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下，a.log.2014-07-26存到/a/2014-07-2

2017-11-29 11:57:37 3209

原创 Flume 笔记

$>flume-ng avro-client -H localhost -p 4141 -F /xxx(文件) 上面出错改成这个 $>flume-ng agent -z s101:2181,s102:2181 -p /flume --name a1 -Dflume.root.logger=INFO,console通过这个连接：$>flume

2017-11-28 19:03:21 464

原创 R语言笔记

得到连接时还要制定账号密码：coon RMysql包是一个不错的工具。简单示例1：install.packages("RMySQL")library(RMySQL)conn <- dbConnect(MySQL(), dbname = "test1", username="root", password="123456", host="127.0.0.1"

2017-11-28 11:16:26 1480

原创 Hbase原理

HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的HDFS作为最基本存储基础单元，通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作一、 hbase架构 1.概述。HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。

2017-11-27 19:44:48 587

原创 Hive技术原理解析

什么是Hive？ Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapp

2017-11-27 19:40:08 9123 1

原创 HBase - Filter - 过滤器的介绍以及使用

1 过滤器HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filter）来查询。1.1 过滤器的两类参数过滤器可以根据列族、列、

2017-11-24 15:07:53 15336

原创 Hbase shell 常用命令

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'

2017-11-24 14:13:22 461

原创 Hive Shell常用操作

Hive的hql命令执行方式有三种：1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行（-S开启静默，去掉”OK”，”Time taken”）3、作为独立文件，通过shell调用 hive –f或hive –i执行执行1234方式1键入“hive”，启动hive的cli交互模式。Set可以查看所有环境设置参数，并可以重设。其他命令如， Use

2017-11-24 14:09:12 13162

转载 java实现记事本之Java记事本源码及实现

今天给大家介绍一下关于如何用Java实现记事本功能，是学习Java swing的一个非常好的案例，下面先看一下运行结果(下载地址在最下面)：下面我们来看源码：[java] view plain copy import java.awt.*; import java.awt.event.*; import j

2017-11-22 08:58:18 47750 19

原创 ZooKeeper的安装与部署 zk遍历所有子节点树

.安装zookeeper集群1.在s100上面上传zk压缩包>cp /mnt/hgfs/BigData/第九天/zookeeper-3.4.10.tar.gz /data/解压>cd /data>tar -xzvf zookeeper-3.4.10.tar.gz 2.发送到其他节点>xsync /data/zookeeper-3.4.10 3.配置环境[

2017-11-21 20:23:24 3109

原创 HBase 常用操作

hbase只支持行级事务，不支持多行事务。进入shell:hbase shell:配置完分布式zk后：单启Hmaster：hbase-daemon.sh start masterHFile默认是十亿字节进行拆分 hbase是版本化数据库...

2017-11-21 20:05:25 3036 1

原创 HBase（0.96以上版本）过滤器Filter详解及实例代码

目录：引言 -- 参数基础1. 结构(Structural)过滤器--FilterList2.列值过滤器--SingleColumnValueFilter 2.1.第一种构造函数情况 -- 比较的关键字是字符数组 2.2.第二种构造函数情况 -- 比较的关键字是比较器ByteArrayComparable3.键值元数据

2017-11-21 20:03:13 254

原创 maven安装和eclipse集成以及Maven之setting.xml配置文件详解

setting.xml配置文件maven的配置文件settings.xml存在于两个地方：1.安装的地方：${M2_HOME}/conf/settings.xml2.用户的目录：${user.home}/.m2/settings.xml前者又被叫做全局配置，对操作系统的所有使用者生效；后者被称为用户配置，只对当前操作系统的使用者生效。如果两者都存在，它们的内容将被合

2017-11-21 09:21:40 27102

原创 Hadoop入门案例全排序之TotalOrderPartitioner工具类+自动采样

代码package com.myhadoop.mapreduce.test;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import

2017-11-20 20:41:58 2031

原创 Python API 操作Hadoop hdfs

http://pyhdfs.readthedocs.io/en/latest/1：安装由于是windows环境（linux其实也一样），只要有pip或者setup_install安装起来都是很方便的>pip install hdfs 2：Client——创建集群连接> from hdfs import * > client = Client("ht

2017-11-20 20:23:22 12278 2

原创 SQL语句中，为什么where子句不能使用列别名，而order by却可以？

当我们使用某个表达式作为输出的一列时,我们无法再Where条件中直接使用该列作判断条件. 例如下面的SQL语句:select id, (c1 + c2) as s from t1 where s > 100 SQL Server 报错: "列名 s 无效" 当然,写成 select id, (c1 + c2) as s from t1 whe

2017-11-20 10:59:34 3557 3

原创 hive动态分区

实验目的1. 验证对分区表进行动态分区插入功能2. 验证是否可以使用load进行动态分区插入实验步骤1. 在本地文件/home/grid/a.txt中写入以下4行数据：aaa,US,CAaaa,US,CBbbb,CA,BBbbb,CA,BC2. 建立非分区表并加载数据[sql] view plain copy

2017-11-20 09:54:39 2135

原创 MR 运行原理

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+

2017-11-17 14:58:23 12041

原创 SQL语言的分类

二. SQL语言的分类SQL语言共分为四大类：数据查询语言DQL，数据操纵语言DML，数据定义语言DDL，数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句，FROM子句，WHERE子句组成的查询块：SELECT FROM WHERE 2 .数据操纵语言DML数据操纵语言DML主要有三种形式：1) 插入：I

2017-11-16 20:56:17 480

转载 Python标准库(非常经典的各种模块介绍)

0.1. 关于本书0.2. 代码约定0.3. 关于例子0.4. 如何联系我们核心模块1.1. 介绍1.2. _ _builtin_ _ 模块1.3. exceptions 模块1.4. os 模块1.5. os.path 模块1.6. stat 模块1.7. string 模块1.8. re 模块1.9. math 模块1.10.

2017-11-16 15:21:19 6322 1

原创 Avro笔记 Avro：MapReduce应用谷歌的 protobuf

Apache Avro框架提供：丰富的数据类型（原始类型和复杂类型）紧凑、快速的二进制文件格式（.avro）一种容器文件，用于存储avro数据RPC容易与动态语言集成，无需生成代码。代码生成作为一种优化，只有在静态语言中使用才有价值。下面是一个Avro MapReduce的实例，MapReduce作业统计Avro文件中的数据。Avro文件中的对象Schema如下：{"names

2017-11-16 08:43:26 500

基于用户SparkALS推荐系统

2023-09-11

GPU驱动升级操作步骤(1)

2023-08-07

TOS+etcd+ca+及相关证书续签

2023-08-07

Security问题总结

2023-08-07

日志分析离线及实时方案

2023-04-15

java实现简单的记事本程序

2018-12-29

大数据课程redies知识点总结课程视频链接

北风网大数据课程redies知识点总结课程视频链接

2018-11-28

大数据平台监控Ganglia加Nagios

2018-11-28

Hive数据仓库全流程开发

2018-11-28

数据挖掘SAS详细资料编程算法信用风险评估

北风网数据挖掘SAS详细资料编程算法信用风险评估

2018-11-28

数据挖掘教学资料PPT视频各种文档

北风网数据挖掘教学资料PPT视频各种文档

2018-11-28

Ganglia+和+Nagios

Ganglia+和+NagiosGanglia+和+Nagios

2018-11-28

Ganglia分布式集群监控系统安装手册 - 千秋大业奋当先 - 博客频道

2018-11-28

Hadoop气象数据

Hadoop气象数据Hadoop气象数据Hadoop气象数据Hadoop气象数据Hadoop气象数据

2017-11-08

hadoop-eclipse-plugin

hadoop-eclipse-pluginhadoop-eclipse-pluginhadoop-eclipse-pluginhadoop-eclipse-plugin

2017-10-23

hadoop官网帮助手册

hadoop官网帮助手册 hadoop官网帮助手册 hadoop官网帮助手册 hadoop官网帮助手册

2017-10-20

hadoop_dll_winutil_2.7.1.zip

hadoop_dll_winutil_2.7.1.ziphadoop_dll_winutil_2.7.1.ziphadoop_dll_winutil_2.7.1.ziphadoop_dll_winutil_2.7.1.zip

2017-10-20

tcnative-32

tcnativetcnativetcnativetcnativetcnativetcnativetcnative

2017-10-16

mysql-connector

mysql-connectormysql-connectormysql-connector

2017-10-16

Junit 4.11各种包

Junit 4.11 Junit 4.11 Junit 4.11 Junit 4.11 Junit 4.11 Junit 4.11

2017-10-15

mysql.5.5版本

mysql.5.5mysql.5.5mysql.5.5mysql.5.5mysql.5.5mysql.5.5mysql.5.5

2017-10-15

Shell脚本学习指南

Shell脚本Shell脚本Shell脚本Shell脚本Shell脚本Shell脚本Shell脚本

2017-10-11

机器学习实战

机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存、谋发展的决定性手段，这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。, 本书第一部分主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。, 全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

2017-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

基于用户SparkALS推荐系统

GPU驱动升级操作步骤(1)

TOS+etcd+ca+及相关证书续签

Security问题总结

日志分析离线及实时方案

java实现简单的记事本程序

大数据课程redies知识点总结课程视频链接

大数据平台监控Ganglia加Nagios

Hive数据仓库全流程开发

数据挖掘SAS详细资料编程算法信用风险评估

数据挖掘教学资料PPT视频各种文档

Ganglia+和+Nagios

Ganglia分布式集群监控系统安装手册 - 千秋大业奋当先 - 博客频道

Hadoop气象数据

hadoop-eclipse-plugin

hadoop官网帮助手册

hadoop_dll_winutil_2.7.1.zip

tcnative-32

mysql-connector

Junit 4.11各种包

mysql.5.5版本

Shell脚本学习指南

机器学习实战

机器学习基础

python基础教程

大数据100道面试题

查看类源码

( Java版）（第3版）[叶核亚] 全套资料.zip

java常用的26个工具类

Hadoop权威指南

JavaScript课件

Java数据结构和算法.rar

数据结构与算法分析

空空如也