2017年11月_LC900730

原创 Hadoop文件操作

JobtrackerJobtracker守护进程是应用程序和Hadoop之间的纽带。一旦代码提交到集群上，JobTracker就会确定执行计划，包括决定处理哪些文件，为不同的任务分配节点以及监控所有任务的运行。如果任务失败，JobTracker将会自动重启任务，但是所分配的节点可能会不同，同时会受到预定义的重试次数限制。每个Hadoop集群只有一个JobTracker守护进程，通常运行在服务器集

2017-11-23 22:32:11 361

原创 ElasticSearch基础

索引索引是ES对逻辑数据的逻辑存储，所以它可以分为更小的部分。可以将索引看成是关系数据库的表文档存储在ES中的主要实体叫做文档。一个文档好比一行记录。在ES中相同字段必须相同类型，如所有title字段的文档，title类型必须一致。分片和副本ES索引是由一个或多个分片组成的，每个文档包含了文档集的一部分。ES查询基本查询查询实际数据复合查询如布尔查询，可以合并多个查询

2017-11-22 23:35:09 241

原创 Hadoop中文件操作

hadoop文件的序列化Hadoop中序列化机制在每个类对象第一次出现时候保持了每个类的信息，如类名，第二次出现时候会有一个类的reference，导致空间浪费。Java序列化不能复用对象，Java反序列化时候每次需要构造出新对象。在Hadoop序列化机制中，反序列化的对象是可以复用的。Hadoop中定义了两个序列化相关的接口：Writable和Comparable，这2个接口可以合成一个Wr

2017-11-22 15:21:32 257

原创 hadoop中节点

namenode主要功能namenode提供名称查询服务namenode保存metadate信息。(包括oweership和permissions)。文件包含哪些块；Block保存在哪个Datanode(由DataNode启动时候上报)NameNode的metadate信息启动后会加载到内存。datanode主要功能Hadoop 集群包含一个NameNode和大量的DataNode保存bl

2017-11-22 14:13:38 2260

原创 DockerFile

格式1.FROMFROM <image>或者FROM <image>:<tag>第一条指令必须为FROM指令。如果在同一个Dockerfile中创建多个镜像时，可以使用多个FROM指令2.MAINTAINERMAINTAINER <name>，指定维护者信息3.RUNRUN <command>，或者RUN["executable","param1","param2"]前者在shell终端中执行

2017-11-20 21:36:57 296

原创 JavaApi操作Hadoop

//在上传的时候出现权限问题，解决方法是hdfs-site.xml中<property> <name>fs.permissions</name> <value>false</value></property>并且将hdfs的data目录权限开放。Java Api上传package cn.itcast.bigdata.hdfs;import java.io.IOException;

2017-11-20 18:47:56 306

节点启动正常，从节点失败从连接主的时候出现问题，查看日志发现，slave在连接master的端口失败，retry了多次。原因：腾讯云hosts文件不支持配置本主机的外网ip，master只监听了127.0.0.1的9002端口，而slave连接的是master(外网ip)的9002端口，因此出现slave连接master失败集群启动中配置顺序hadoop2.6.5core-site.xml<prop

2017-11-19 21:02:24 399

原创 Hadoop概念

Jobconf对象指定了作业的各种参数。它授予我们对整个作业如何运行对控制权。当我们在Hadoop集群上运行这个作业时，我们将代码打包成JAR文件(Hadoop会在集群中分发这个包)。我们没有明确指定这个JAR文件对名称，而是在JobConf构造函数中传递一个类，Hadoop会找到这个包含此类对JAR文件。在创建JobConf对象后，我们将指定输入输出路径。通过调用FileInputFormat

2017-11-16 13:59:27 261

原创 storm初识

storm集群搭建 storm核心组件 storm编程模型 storm task并发度 storm 消息容错 storm 通信机制 storm 与zk交互 strom 流式计算的一般架构 kfaka集群搭建 kfaka生产集群的原理／分区 kafka消费者的负载均衡 kafka消费者的负载均衡–kafkaspout kafka broker核心机制(topic 分片文件存储

2017-11-16 13:56:22 324

原创 HDFS写数据

上传流程1.首先客户端向namenode请求上传文件 /aaa/cls.avi 元数据存储在内存中 namenode检查该路径是否有文件等，返回给客户端2.响应，可以上传。rpc请求，请求上传一个block，请求返回datanode。 3.返回datanode列表，(dn1/dn3/dn4..), namenode给这些datanode的讲究是： 1.

2017-11-15 09:36:49 644

原创 hadoop配置及启动

logo.gif？加载是向tomcat提交向hdfs集群汇聚数据 producer一边读log，然后写到hdfs。 flume如看了又看请求某个action 猜你喜欢。请求某个action 热门关注请求某个action传统io： 1.先将文件内容从磁盘中拷贝到操作系统buffer 2.再从操作系统buffer拷贝到程序应用buffer 3.从程序buffer拷贝

2017-11-12 21:53:00 305

原创 hadoop配置

配置项1<property> <name>fs.defaultFS</name> <value>hdfs://mini1:9000</value></property>hdfs://mini1:9000 nameNode+Port URI: jdbc:mysql://localhost:3306 schema hadoop要使用哪一种文件系统配置项2<property>

2017-11-12 21:52:31 314

原创 Java中的反射与动态代理

通过一个字符串，获取这个字符串所代表的那个类的属性/方法等。拿到字符串，不能new字符串。拿到构造函数//personClass是拿到之后的类Constructor constructor=personClass.getConstructor(Long.class,String.class);Person person=(Person) constructor.newInstance(100L

2017-11-12 17:13:31 406

原创 Java线程

继承自Thread方法thread.run() 和thread的start()方法必须是start，如果是run()的话，那么就是普通的方法调用。如果是调用thread的run(),那么就是普通的方法调用,不会创建新线程。继承自runnable方法new Thread(传入runnable对象，名字)：这样就产生一个线程Synchronizedpublic function get()

2017-11-12 14:02:09 254

原创 HDFS文件

客户端想上传文件，询问dataNode，dataNode查询元信息后返给客户端(如2号仓库可以存放)，客户端拿到信息后，与dataNode建立流通讯。客户端不是写多分，而是dataNode水平进行复制，nameNode进行记录。数据量越来越多，在一个操作系统管辖的范围存不下，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统的来管理多台机器上的文件，这就是分布式文

2017-11-12 12:19:28 354

原创 Zookeeper

Linux下下载Zookeeperwget http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gzZookeeper配置文件dataDir=’/XX/XX’(数据的存放目录)server.1=192.168.xx.xx(或者主机名)：2888（leader与follower通信端口）：

2017-11-11 15:15:52 518

原创 docker

docker镜像：由文件系统叠加而成，最底端是一个引导文件系统，即bootfs，这很像Linux/Unix的引导文件系统。 docker镜像的第二层是root文件系统rootfs，位于引导文件系统之上。rootfs可以是一种或者多种操作系统。Docker一个镜像可以放到另一个镜像的顶部。位于下面的镜像称为父镜像，最底部的镜像称为基础镜像。构建镜像使用docker commit命令使用doc

2017-11-06 19:13:36 294

原创 hadoop杂

MapReduce输入的键和值并不是数据固有的属性，它们是由分析数据的人来选择的。hdfs是提供数据存储的，mapreduce是方便数据计算的 a.hdfs又对应namenode和datanode，namenode负责保存元数据的基本信息； datanode之间存放数据本身 b.mapreduce对应jobtracker负责分发任务，tasktracker负责执行具体任务 c所以对应

2017-11-06 19:12:51 283

原创 nginx封装的数据结构

ngx_string:宏函数，只能用于赋值初始化#define ngx_string(str) { sizeof(str) - 1, (u_char *) str }ngx_string与ngx_null_string是“{，}”格式的，故只能用于赋值时初始化，如：ngx_str_t str = ngx_string("hello world");ngx_str_t str1 = ngx

2017-11-03 15:23:27 350

原创 nginx

nginx_list_part_ttypedef struct ngx_list_part_s struct ngx_list_part_tstruct ngx_list_part_s{ void *elts; ngx_uint_t nelts; ngx_list_part_t *next;}

2017-11-02 10:19:36 254

LC900730的博客