2017年11月_首席撩妹指导官

12月 11月 10月 09月 08月 07月

原创 Kafka 笔记

配置环境变量KAFKA_HOME 和 path 想创三个副本的topic上面还需要开启一个服务server-3核心部分：第一条后面是：并缓存以及清理到磁盘第九条：并能够通过zk的watcher callback机制实时进行更新每台上的broker.id不同即可，上面zk的连接用逗号分隔

2017-11-29 17:59:44 283

原创 Hive优化

优化手段合理控制Map和Reduce数合并小文件避免数据倾斜，解决数据倾斜减少job数（合并Job、大Job分拆……）一、 Map数和Reduce数Hive官方：https://cwiki.apache.org/confluence/display/Hive/Home 1.1、Map数Map数过大 Map阶段输出文件太小，产生大量小文件...

2017-11-29 16:13:56 285

原创 flume 自定义source，sink，channel，拦截器

按照以往的惯例，还是需求驱动学习，有位网友在我的flume学习五中留言提了一个问题如下：我想实现一个功能，就在读一个文件的时候，将文件的名字和文件生成的日期作为event的header传到hdfs上时，不同的event存到不同的目录下，如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下，a.log.2014-07-26存到/a/2014-07-2

2017-11-29 11:57:37 3101

原创 Flume 笔记

$>flume-ng avro-client -H localhost -p 4141 -F /xxx(文件) 上面出错改成这个 $>flume-ng agent -z s101:2181,s102:2181 -p /flume --name a1 -Dflume.root.logger=INFO,console通过这个连接：$>flume

2017-11-28 19:03:21 444

原创 R语言笔记

得到连接时还要制定账号密码：coon RMysql包是一个不错的工具。简单示例1：install.packages("RMySQL")library(RMySQL)conn <- dbConnect(MySQL(), dbname = "test1", username="root", password="123456", host="127.0.0.1"

2017-11-28 11:16:26 1443

原创 Hbase原理

HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的HDFS作为最基本存储基础单元，通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作一、 hbase架构 1.概述。HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。

2017-11-27 19:44:48 506

原创 Hive技术原理解析

什么是Hive？ Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapp

2017-11-27 19:40:08 9084 1

原创 HBase - Filter - 过滤器的介绍以及使用

1 过滤器HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filter）来查询。1.1 过滤器的两类参数过滤器可以根据列族、列、

2017-11-24 15:07:53 15253

原创 Hbase shell 常用命令

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'

2017-11-24 14:13:22 424

原创 Hive Shell常用操作

Hive的hql命令执行方式有三种：1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行（-S开启静默，去掉”OK”，”Time taken”）3、作为独立文件，通过shell调用 hive –f或hive –i执行执行1234方式1键入“hive”，启动hive的cli交互模式。Set可以查看所有环境设置参数，并可以重设。其他命令如， Use

2017-11-24 14:09:12 13106

转载 java实现记事本之Java记事本源码及实现

今天给大家介绍一下关于如何用Java实现记事本功能，是学习Java swing的一个非常好的案例，下面先看一下运行结果(下载地址在最下面)：下面我们来看源码：[java] view plain copy import java.awt.*; import java.awt.event.*; import j

2017-11-22 08:58:18 46639 19

原创 ZooKeeper的安装与部署 zk遍历所有子节点树

.安装zookeeper集群1.在s100上面上传zk压缩包>cp /mnt/hgfs/BigData/第九天/zookeeper-3.4.10.tar.gz /data/解压>cd /data>tar -xzvf zookeeper-3.4.10.tar.gz 2.发送到其他节点>xsync /data/zookeeper-3.4.10 3.配置环境[

2017-11-21 20:23:24 3057

原创 HBase 常用操作

hbase只支持行级事务，不支持多行事务。进入shell:hbase shell:配置完分布式zk后：单启Hmaster：hbase-daemon.sh start masterHFile默认是十亿字节进行拆分 hbase是版本化数据库...

2017-11-21 20:05:25 2970 1

原创 HBase（0.96以上版本）过滤器Filter详解及实例代码

目录：引言 -- 参数基础1. 结构(Structural)过滤器--FilterList2.列值过滤器--SingleColumnValueFilter 2.1.第一种构造函数情况 -- 比较的关键字是字符数组 2.2.第二种构造函数情况 -- 比较的关键字是比较器ByteArrayComparable3.键值元数据

2017-11-21 20:03:13 247

原创 maven安装和eclipse集成以及Maven之setting.xml配置文件详解

setting.xml配置文件maven的配置文件settings.xml存在于两个地方：1.安装的地方：${M2_HOME}/conf/settings.xml2.用户的目录：${user.home}/.m2/settings.xml前者又被叫做全局配置，对操作系统的所有使用者生效；后者被称为用户配置，只对当前操作系统的使用者生效。如果两者都存在，它们的内容将被合

2017-11-21 09:21:40 26973

原创 Hadoop入门案例全排序之TotalOrderPartitioner工具类+自动采样

代码package com.myhadoop.mapreduce.test;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import

2017-11-20 20:41:58 1967

原创 Python API 操作Hadoop hdfs

http://pyhdfs.readthedocs.io/en/latest/1：安装由于是windows环境（linux其实也一样），只要有pip或者setup_install安装起来都是很方便的>pip install hdfs 2：Client——创建集群连接> from hdfs import * > client = Client("ht

2017-11-20 20:23:22 12225 2

原创 SQL语句中，为什么where子句不能使用列别名，而order by却可以？

当我们使用某个表达式作为输出的一列时,我们无法再Where条件中直接使用该列作判断条件. 例如下面的SQL语句:select id, (c1 + c2) as s from t1 where s > 100 SQL Server 报错: "列名 s 无效" 当然,写成 select id, (c1 + c2) as s from t1 whe

2017-11-20 10:59:34 3425 3

原创 hive动态分区

实验目的1. 验证对分区表进行动态分区插入功能2. 验证是否可以使用load进行动态分区插入实验步骤1. 在本地文件/home/grid/a.txt中写入以下4行数据：aaa,US,CAaaa,US,CBbbb,CA,BBbbb,CA,BC2. 建立非分区表并加载数据[sql] view plain copy

2017-11-20 09:54:39 2103

原创 MR 运行原理

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+

2017-11-17 14:58:23 11930

原创 SQL语言的分类

二. SQL语言的分类SQL语言共分为四大类：数据查询语言DQL，数据操纵语言DML，数据定义语言DDL，数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句，FROM子句，WHERE子句组成的查询块：SELECT FROM WHERE 2 .数据操纵语言DML数据操纵语言DML主要有三种形式：1) 插入：I

2017-11-16 20:56:17 371

转载 Python标准库(非常经典的各种模块介绍)

0.1. 关于本书0.2. 代码约定0.3. 关于例子0.4. 如何联系我们核心模块1.1. 介绍1.2. _ _builtin_ _ 模块1.3. exceptions 模块1.4. os 模块1.5. os.path 模块1.6. stat 模块1.7. string 模块1.8. re 模块1.9. math 模块1.10.

2017-11-16 15:21:19 6175 1

原创 Avro笔记 Avro：MapReduce应用谷歌的 protobuf

Apache Avro框架提供：丰富的数据类型（原始类型和复杂类型）紧凑、快速的二进制文件格式（.avro）一种容器文件，用于存储avro数据RPC容易与动态语言集成，无需生成代码。代码生成作为一种优化，只有在静态语言中使用才有价值。下面是一个Avro MapReduce的实例，MapReduce作业统计Avro文件中的数据。Avro文件中的对象Schema如下：{"names

2017-11-16 08:43:26 477

原创 Java - NIO之Channel（FileChannel）

一、关于Channel Java NIO的通道（Channel）类似流，但又有些不同：既可以从通道中读取数据，又可以写数据到通道。但流的读写通常是单向的。通道可以异步地读写。通道中的数据总是要先读到一个Buffer，或者总是要从一个Buffer中写入。 Java NIO中最重要的通道的实现

2017-11-13 16:57:18 304

原创 Builder模式

模式动机无论是在现实世界中还是在软件系统中，都存在一些复杂的对象，它们拥有多个组成部分，如汽车，它包括车轮、方向盘、发动机等各种部件。而对于大多数用户而言，无须知道这些部件的装配细节，也几乎不会使用单独某个部件，而是使用一辆完整的汽车，可以通过建造者模式对其进行设计与描述，建造者模式可以将部件和其组装过程分开，一步一步创建一个复杂的对象。用户只需要指定复杂对象的类型就可以得到该对象，而无须

2017-11-13 10:04:19 157

转载 c3p0三种配置方式

c3p0的配置方式分为三种，分别是1.setters一个个地设置各个配置项2.类路径下提供一个c3p0.properties文件3.类路径下提供一个c3p0-config.xml文件1.setters一个个地设置各个配置项这种方式最繁琐，形式一般是这样：01Properties props = new Properties();

2017-11-13 09:46:40 593

1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失，宕机后直接导致client无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可，如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到原因修复了。但是最终的解决方案应...

2017-11-10 14:21:57 7389 3

原创 URI与URL区别

URL 与 URI很多人会混淆这两个名词。URL：(Uniform/Universal Resource Locator 的缩写，统一资源定位符)。URI：(Uniform Resource Identifier 的缩写，统一资源标识符)（代表一种标准）。关系：URI 属于 URL 更高层次的抽象，一种字符串文本标准。就是说，URI 属于父类，而 U

2017-11-10 08:51:03 243

原创 shell中$*与$@的区别

shell中$*与$@的区别$*所有的位置参数,被作为一个单词.注意:"$*"必须被""引用.$@与$*同义,但是每个参数都是一个独立的""引用字串,这就意味着参数被完整地传递,并没有被解释和扩展.这也意味着,每个参数列表中的每个参数都被当成一个独立的单词.注意:"$@"必须被引用.$@ $* 只在被双引号包起来的时候才会有差异双引号

2017-11-10 08:44:10 736

原创 Hadoop数据本地化

首先需要知道，hadoop数据本地化是指的map任务，reduce任务并不具备数据本地化特征。通常输入的数据首先将会分片split，每个分片上构建一个map任务，由该任务执行执行用户自定义的map函数，从而处理分片中的每条记录。那么切片的大小一般是趋向一个HDFS的block块的大小。为什么最佳的分片大小是趋向HDFS块的大小呢？是因为这样能够确保单节点上最大输入块

2017-11-08 09:43:00 2692

原创 linux-mysql Access denied for user 'root'@'localhost'

这两天在MyEclipse中开发Web项目时，连接MYSQL数据库，出现问题：Access denied for user 'root'@'localhost'(using password:YES)。经查找资料发现是root帐户默认不开放远程访问权限，所以需要修改一下相关权限。解决方案：打开MySQL目录下的my.ini文件，在文件的最

2017-11-07 21:28:01 709

原创 hadoop FileInputFormat.addInputPaths兼容FileInputFormat.setInputPath

写MR过程中经常会遇到多个源路径的输入，我们可以在MR程序主函数中通过FileInputFormat.addInputPaths(job,args[0])方法来实现，args[0]可以是folder1或者folder1，folder2只要以逗号分隔就可以了。这样在执行MR的时候，输入会将多个源路径全部多为map输入进行执行。另外一种实现单输入的方法（只支持一

2017-11-03 21:03:43 4096

原创 yarn ResourceManager

阅读本文首先知道什么是YARN，如果不清楚，可以查看为什么会产生yarn,它解决了什么问题，有什么优势如题：为什么会产yarn,它解决了什么问题，有什么优势？简单来讲是因为Mrv1的缺陷，产生yarn。下面详细介绍Hadoop 和 MRv1 简单介绍Hadoop 集群可从单一节点（其中所有 Hadoop 实体都在同一个节点上运行）扩展到数千个节点（其中的功能分散在各个节点之

2017-11-02 17:17:07 699

原创 Java-Enumeration总结

Enumeration（枚举）接口的作用和Iterator类似，只提供了遍历Vector和HashTable类型集合元素的功能，不支持元素的移除操作。Java8中Enumeration接口的源码:public interface EnumerationE> {/** * Tests if this enumeration contains more elemen

2017-11-02 11:17:35 273

原创 Java集合之Vector

Vector是矢量队列，它继承了AbstractList，实现了List、 RandomAccess, Cloneable, java.io.Serializable接口。Vector接口依赖图：Vector继承了AbstractList，实现了List，它是一个队列，因此实现了相应的添加、删除、修改、遍历等功能。Vector实现了RandomAccess接口，因此可以

2017-11-02 11:16:56 205

原创 SequenceInputStream合并流

SequenceInputStreampublic SequenceInputStream(EnumerationInputStream> e)通过记住参数来初始化新创建的 SequenceInputStream，该参数必须是生成运行时类型为 InputStream 对象的 Enumeration 型参数。将按顺序读取由该枚举生成的输入流，以提供从此 SequenceInputStre

2017-11-02 11:14:08 267

原创 SequenceFile & MapFile

SequenceFileHadoop的SequenceFile适合记录二进制类型的数据，为二进制key - Value对提供了一个持久数据结构 SequenceFile作为日志文件的存储格式时，使用者可以直接选择Key和Value SequecneFile也可以作为小文件的容器，将小文件进行包装，从而获得更高效率的存储和处理SequenceFile的写操作命令行

2017-11-02 10:45:06 349

原创 Java序列化与反序列化

Java序列化与反序列化是什么？为什么需要序列化与反序列化？如何实现Java序列化与反序列化？本文围绕这些问题进行了探讨。 1.Java序列化与反序列化 Java序列化是指把Java对象转换为字节序列的过程；而Java反序列化是指把字节序列恢复为Java对象的过程。 2.为什么需要序列化与反序列化我们知道，当两个进程进行远程通信时，可以相互发送各种类型的数据，包括

2017-11-02 09:33:22 189

原创 jdbc和nio补充以及Ubuntu上安装eclipse

2017-11-01 10:45:33 255

原创 maven 实用插件以及搭建本地仓库服务器

maven的安装与maven本地仓库的搭建过程maven的安装----------------------- 1.下载并解压apache-maven-3.3.9-bin.tar.gz到/soft下. 2.创建符号连接 $>cd /soft $>

2017-11-01 09:55:54 1511 1

数据挖掘SAS详细资料编程算法信用风险评估

北风网数据挖掘SAS详细资料编程算法信用风险评估

2018-11-28

数据挖掘教学资料PPT视频各种文档

北风网数据挖掘教学资料PPT视频各种文档

2018-11-28

Ganglia+和+Nagios

Ganglia+和+NagiosGanglia+和+Nagios

2018-11-28

Ganglia分布式集群监控系统安装手册 - 千秋大业奋当先 - 博客频道

2018-11-28

Hadoop气象数据

Hadoop气象数据Hadoop气象数据Hadoop气象数据Hadoop气象数据Hadoop气象数据

2017-11-08

hadoop-eclipse-plugin

hadoop-eclipse-pluginhadoop-eclipse-pluginhadoop-eclipse-pluginhadoop-eclipse-plugin

2017-10-23

hadoop官网帮助手册

hadoop官网帮助手册 hadoop官网帮助手册 hadoop官网帮助手册 hadoop官网帮助手册

2017-10-20

hadoop_dll_winutil_2.7.1.zip

hadoop_dll_winutil_2.7.1.ziphadoop_dll_winutil_2.7.1.ziphadoop_dll_winutil_2.7.1.ziphadoop_dll_winutil_2.7.1.zip

2017-10-20

tcnative-32

tcnativetcnativetcnativetcnativetcnativetcnativetcnative

2017-10-16

mysql-connector

mysql-connectormysql-connectormysql-connector

2017-10-16

Junit 4.11各种包

Junit 4.11 Junit 4.11 Junit 4.11 Junit 4.11 Junit 4.11 Junit 4.11

2017-10-15

mysql.5.5版本

mysql.5.5mysql.5.5mysql.5.5mysql.5.5mysql.5.5mysql.5.5mysql.5.5

2017-10-15

Shell脚本学习指南

Shell脚本Shell脚本Shell脚本Shell脚本Shell脚本Shell脚本Shell脚本

2017-10-11

机器学习实战

机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存、谋发展的决定性手段，这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。, 本书第一部分主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。, 全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

2017-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据挖掘SAS详细资料编程算法信用风险评估

数据挖掘教学资料PPT视频各种文档

Ganglia+和+Nagios

Ganglia分布式集群监控系统安装手册 - 千秋大业奋当先 - 博客频道

Hadoop气象数据

hadoop-eclipse-plugin

hadoop官网帮助手册

hadoop_dll_winutil_2.7.1.zip

tcnative-32

mysql-connector

Junit 4.11各种包

mysql.5.5版本

Shell脚本学习指南

机器学习实战

机器学习基础

python基础教程

大数据100道面试题

查看类源码

( Java版）（第3版）[叶核亚] 全套资料.zip

java常用的26个工具类

Hadoop权威指南

Hadoop权威指南第四版

阿里巴巴Java规范

JavaScript课件

Java数据结构和算法.rar

数据结构与算法分析

基于用户SparkALS推荐系统

GPU驱动升级操作步骤(1)

TOS+etcd+ca+及相关证书续签

Security问题总结

日志分析离线及实时方案

java实现简单的记事本程序

大数据课程redies知识点总结课程视频链接

大数据平台监控Ganglia加Nagios

Hive数据仓库全流程开发

数据挖掘教学视频实战超详细加python全栈第二三期超详细

空空如也