2019年12月_大数据流浪法师

12月 11月 10月

原创 BufferedReader和BufferedWriter对文本文件实现处理每一行内容

记住怎么创建Reader和Writer就行了，用完记得关流。package com.czxy.demo06;import java.io.*;import java.util.stream.Stream;/** * 练习题 * 第一步：数据预处理阶段 */public class DataConvert01 { public static void main(Strin...

2019-12-31 21:17:53 644 2

原创 HBase 面试题(一)

大数据面试题之HBase面试题

2019-12-31 11:34:35 395 1

原创 IDEA MAVEN+Spring多模块项目打包部署到服务器的配置

Application类，主方法继承SpringBootServletInitializer并重写方法package com.czxy;import org.springframework.boot.SpringApplication;import org.springframework.boot.autoconfigure.SpringBootApplication;import or...

2019-12-30 08:14:45 1185

原创用IDEA打开别人的maven项目，设置web模块为指定的webapp

第一步，导入MAVEN项目查看原始目录结构，发现是maven项目我们用idea的import导入这个项目找到项目位置，点击ok然后按顺序点击，导入为maven项目如果没有特殊需求，直接next导入所有模块，next点击finish导入完成你用自己的idea打开别人的项目，大概率会覆盖其中的内容，点yes第二步，让idea能识别这个项目是web项目打开后可以看到如...

2019-12-27 14:07:43 1846

原创异步加载JS不允许document点write解决办法百度地图API

只需要把要加载的js放到body标签结束之前就可以了，这样body中的东西全加载好了，而且document也没有关闭，就趁这个时候把东西写到document里，尤其是百度地图API，导那个包就得这么导<div id="allmap" style="width: 1000px;height: 618px" ></div><!--放在这里可以解决doc...

2019-12-26 15:42:56 2625 8

原创两种方式（Java远程连接、本地shell脚本）遍历加载HDFS一个目录下的多个数据文件到hive表

现有如下，一堆数据文件，以日期命名，因为需要按分区加载到一个分区表中。如果手动加载，会浪费很多时间，所以有两种方式实现自动遍历并加载到hive表。第一种：JAVA代码连接hdfs，读取每一个数据，远程执行hive -e，这样会浪费大量的中间过程。package com.czxy.demo05;import net.neoremind.sshxcute.core.ConnBean;i...

2019-12-25 21:45:44 990 1

原创 IDEA GrepConsole插件加 log4j 实现控制台输出彩色字体

首先安装GrepConsole插件安装完毕后，重启idea，在控制台多了一个按钮这个是它的控制台界面，可以在这里自定义颜色接下来配合log4j实现彩色输出。log4j所需pom依赖<dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> ...

2019-12-25 09:19:05 1171

原创 Java代码执行linux命令所需的Maven工程的POM的Dependency依赖

使用java代码执行linux命令，maven所需的pom依赖<dependency> <groupId>net.neoremind</groupId> <artifactId>sshxcute</artifactId> <version>1.0</version></dependency>...

2019-12-25 08:24:10 518

Hive与HBase的整合hive与我们的HBase各有千秋，各自有着不同的功能，但是归根接地，hive与hbase的数据最终都是存储在hdfs上面的，一般的我们为了存储磁盘的空间，不会将一份数据存储到多个地方，导致磁盘空间的浪费，我们可以直接将数据存入hbase，然后通过hive整合hbase直接使用sql语句分析hbase里面的数据即可，非常方便需求一：将hive分析结果的数据，保存到HB...

2019-12-20 17:25:34 198

原创 Apache HBase HBase与hive的对比

Hive是数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗Hive适用于离线的数据分析和清洗，延迟较高基于HDFS、MapReduceHive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。（不要钻不需要执行MapReduce代码的情况的牛角尖）HBas...

2019-12-19 17:18:54 309

原创 Apache HBase 通过bulkload方式批量加载数据到HBase中

使用HBase的javaAPI或者使用sqoop将数据写入或者导入到HBase中，这些方式不是慢就是在导入的过程的占用Region资料导致效率低下。而Bulkload方式通过MR的程序，将数据直接转换成HBase的最终存储格式HFile，然后直接load数据到HBase中即可。bulkload优点：1.导入过程不占用Region资源2.能快速导入海量的数据3.节省内存HFileHBa...

2019-12-19 17:12:18 471

原创 Apache HBase 读取HBase数据写出到HDFS上

查看myuser2中数据hbase(main):001:0> scan 'myuser2'ROW COLUMN+CELL 0001 column=f1:age, timestamp=1576629006005, value=\...

2019-12-19 16:13:36 285

原创 Apache HBase JavaAPI 读取HDFS文件，写入HBase表中

第一步：准备数据准备数据文件，并将数据文件上传到HDFS上面去hdfs dfs -mkdir -p /hbase/inputcd /export/servers/vim user.txt0007 zhangsan 180008 lisi 250009 wangwu 20第二步：开发MR程序public class Hdfs2Hbase ...

2019-12-19 16:08:59 852

原创 -- process information unavailable 解决办法

JPS查看发现出现了这个东西：（大多数原因是某个组件崩了）-- process information unavailable首先，重启机器，然后运行如下代码rm -rf /tmp/hsperfdata_*然后重启各个组件，应该就好了。造成这个bug的原因，是意外关闭机器，或者没有按照顺序关闭各个组件。因为大数据的各个组件之间都是相互关联的。...

2019-12-19 14:20:02 2987

原创 Apache HBase 集成MapReduce 读取一张表的数据写入另一张表

HBase当中的数据最终都是存储在HDFS上面的，HBase天生的支持MR的操作，我们可以通过MR直接处理HBase当中的数据，并且MR可以将处理后的结果直接存储到HBase当中去。需求：读取HBase当中一张表的数据，然后将数据写入到HBase当中的另外一张表当中去。注意：我们可以使用TableMapper与TableReducer来实现从HBase当中读取与写入数据。将myuser这张表...

2019-12-18 11:37:44 478

原创 HBase面试题（二）

HBase面试题

2019-12-18 10:14:28 373

原创 Apache ZooKeeper ZK集群一键启动与关闭脚本

for host in node01 node02 node03do ssh $host "source /etc/profile;jps |grep QuorumPeerMain |cut -c 1-4 |xargs kill -s 9" echo "$host zk is stopping"donefor host in node01 node02 node03do ssh $...

2019-12-18 08:23:01 326

原创 Apache HBase JavaAPI 删除数据

根据rowkey删除数据package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoo...

2019-12-17 17:41:58 532

原创 Apache HBase JavaAPI 过滤器查询

文章目录创建maven工程，pom文件：创建表myuser创建maven工程，pom文件：<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifact...

2019-12-17 17:26:37 282

原创 Apache HBase JavaAPI 查询数据

初始化一批数据到HBase当中用于查询package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apach...

2019-12-17 16:16:04 356

原创 Apache HBase JavaAPI 向表中添加数据

package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.clien...

2019-12-17 11:49:48 273

原创 Apache HBase JavaAPI 创建表myuser

package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hba...

2019-12-17 11:42:18 341

原创 Apache HBase JavaAPI POM文件

创建maven工程，pom文件：<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url&gt...

2019-12-17 11:39:04 511

原创 Apache HBase 预分区

预分区的原因增加数据读写效率负载均衡，防止数据倾斜方便集群容灾调度region优化Map数量如何预分区？每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。如何设定预分区？1、手动指定预分区hbase(main):001:0> create 'staff','info'...

2019-12-17 08:57:19 172

原创 Apache HBase rowKey设计技巧

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：通过get方式，指定rowkey获取唯一一条记录通过scan方式，设置startRow和stopRow...

2019-12-17 08:50:45 161

原创 Apache HBase 架构

HBase架构图的理解Client包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。Zookeeper保证任何时候，集群中只有一个master存贮所有Region的寻址入口实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master存储Hbase的schema,包括...

2019-12-17 08:41:02 145

原创 Apache HBase 物理存储架构

物理存储架构整体结构Table中的所有行都按照row key的字典序排列。Table 在行的方向上分割为多个Hregion。region按大小分割的(默认10G)，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阈值的时候，Hregion就会等分会两个新的Hregion。当table中的行不断增多，就会有越来越多的Hregion。Hregio...

2019-12-17 08:39:23 114

原创 Apache HBase 表模型理解

HBase的表数据模型理解Row Key与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：1 通过单个row key访问2 通过row key的range3 全表扫描Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保...

2019-12-17 08:29:09 236

原创 Apache HBase 三个重要机制 Flush Compact Split

Flush机制1.（hbase.regionserver.global.memstore.size）默认;堆大小的40%regionServer的全局memstore的大小，超过该大小会触发flush到磁盘的操作,默认是堆大小的40%,而且regionserver级别的flush会阻塞客户端读写2.（hbase.hregion.memstore.flush.size）默认：128M单个r...

2019-12-16 17:41:21 361

原创三元组概念

计算机中的三元组三元组是指形如（（x，y），z）的集合（这就是说，三元组是这样的偶，其第一个射影亦是一个偶），常简记为（x，y，z）。三元组是计算机专业的一门公共基础课程——数据结构里的概念。主要是用来存储稀疏矩阵的一种压缩方式，也叫三元组表。假设以顺序存储结构来表示三元组表（triple table），则得到稀疏矩阵的一种压缩存储方式，即三元组顺序表，简称三元组表。图片中的三元组应该...

2019-12-16 14:41:04 12268

原创 Apache HBase Master的工作机制

master上线前提：hbase集群中可以设置多个master，真正对外提供服务的只有一个。master启动进行以下步骤:1 从zookeeper上获取唯一一个代表active master的锁，用来阻止其它master成为master。2 扫描zookeeper上的server父节点，获得当前可用的region server列表。3 和每个region server通信，获得当前已分配...

2019-12-16 10:30:30 188

原创 Apache HBase Region管理

region分配任何时刻，一个region只能分配给一个region server。master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region server，哪些region还没有分配。当需要分配的新的region，并且有一个region server上有可用空间时，master就给这个region server发送一个装载请求，把reg...

2019-12-16 09:31:51 146

原创 Apache HBase 写数据过程

HBase写数据详细过程Client先访问zookeeper，找到Meta表，并获取Meta表元数据。根据Meta表元数据，确定当前将要写入的数据所对应的HRegion和HRegionServer服务器。Client向该HRegionServer服务器发起写入数据请求，然后HRegionServer收到请求并响应。Client先把数据写入到HLog，以防止数据丢失，然后将数据写入到Mems...

2019-12-16 09:12:01 188

原创 Apache HBase 读数据过程

meta表meta表述hbase系统自带的一个表。里面存储了hbase用户表的元信息。元信息meta表内记录一行数据是用户表一个region的start key 到endkey的范围。meta表位置meta表存储在regionserver里。zookeeper知道具体存储在哪个regionserver里。client询问zookeeper：meta表的位置在哪到meta所在...

2019-12-16 08:44:05 95

原创 Linux awk命令

选项英文含义-F ','field-separator使用指定字符分割$ + 数字获取第几段内容$0获取当前行内容NFfield表示当前行共有多少个字段$NF代表最后一个字段$(NF-1)代表倒数第二个字段NR代表处理的是第几行模糊查询准备数据vim score.txt文件内容：zh...

2019-12-16 08:18:22 177

原创 Linux 用户、用户组、权限相关操作

用户组的增删改查添加组groupadd 组名查看组cat /etc/group删除组groupdel 组名修改文件所属的组chgrp 目标组名文件/目录

2019-12-16 08:17:19 180

原创 Hadoop HDFS的特点

重要特性分块存储(block)默认大小128M(2.x版本),64M(老版本),可修改统一的抽象目录树可通过路径访问文件(hdfs://namenode:port/…)统一管理目录结构和元数据的管理都由namenode(集群主节点)承担负责维护目录树和文件所对应的block块id和所在datanode服务器datanode存储管理集群从节点,每个block可在多个datanode...

2019-12-16 08:14:21 245

转载 ScalarHandler和KeyedHandler概念

ScalarHandler：将单个值封装、例如select count（*），求内容的条数@Testpublic void demo8()throws SQLException{ QueryRunner queryRunner =new QueryRunner(JDBCUtils2.getDataSource()); Object obj =queryRunner.query("se...

2019-12-16 08:07:35 1341

原创 JDBC 连接mysql 的URL

jdbc:mysql://localhost:3306/mydblocalhost是ip地址3306是端口号mydb是数据库名前边的jdbc:mysql://是固定格式

2019-12-16 08:02:46 409

原创 DBCP 概念

数据库连接池—DBCP是 apache common上的一个 java 连接池项目，也是 tomcat 使用的连接池组件。数据库打开连接非常费时，而且为每一个用户打开一个连接对于网络应用来说是不现实的，因此开发者希望能够让所有用户共享一个“连接池”，内存中保存一定的数据库连接，当用户请求的时候就分配一个给他，当用户不需要的时候就将连接放回池中。这就是DBCP等连接池出现的原因。DBCP—D...

2019-12-16 08:00:06 1355

ExcelToSQL源码

2023-11-04

人类通用语言算法01：得到字符串字符的所有不重复组合

有一天，我想自己做人工智能。我首先想到的就是语言问题。也就是人工智能如何认知到这个世界的一切。我认为生命不过就是信息处理，所以，一种能够表达所有事物的组合性代表性的通用语言是很有用的。完成这个通用表示语言的第一步，就是根据一个事物，得到它的各种不同表达状态。这里以人类语言为例，输入一个字符串，可以得到字符串中所有字的组合我甚至不知道它属于什么算法，也许看了它之后会对你有所启发。（其实我特别想下载Jooner的源码，苦于没有c币，所以拿出一份独特的源码换几个c币，顺便请大家判断一下这个算法是属于什么类别的，前人是否已经做出类似算法，如果您知道类似的算法，请务必评论留言，不胜感激！）

2018-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人