自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 资源 (1)
  • 收藏
  • 关注

原创 BufferedReader和BufferedWriter对文本文件实现处理每一行内容

记住怎么创建Reader和Writer就行了,用完记得关流。package com.czxy.demo06;import java.io.*;import java.util.stream.Stream;/** * 练习题 * 第一步:数据预处理阶段 */public class DataConvert01 { public static void main(Strin...

2019-12-31 21:17:53 644 2

原创 HBase 面试题(一)

大数据面试题之HBase面试题

2019-12-31 11:34:35 395 1

原创 IDEA MAVEN+Spring多模块项目打包部署到服务器的配置

Application类,主方法继承SpringBootServletInitializer并重写方法package com.czxy;import org.springframework.boot.SpringApplication;import org.springframework.boot.autoconfigure.SpringBootApplication;import or...

2019-12-30 08:14:45 1185

原创 用IDEA打开别人的maven项目,设置web模块为指定的webapp

第一步,导入MAVEN项目查看原始目录结构,发现是maven项目我们用idea的import导入这个项目找到项目位置,点击ok然后按顺序点击,导入为maven项目如果没有特殊需求,直接next导入所有模块,next点击finish导入完成你用自己的idea打开别人的项目,大概率会覆盖其中的内容,点yes第二步,让idea能识别这个项目是web项目打开后可以看到如...

2019-12-27 14:07:43 1846

原创 异步加载JS不允许document点write解决办法 百度地图API

只需要把要加载的js放到body标签结束之前就可以了,这样body中的东西全加载好了,而且document也没有关闭,就趁这个时候把东西写到document里,尤其是百度地图API,导那个包就得这么导<div id="allmap" style="width: 1000px;height: 618px" ></div><!--放在这里可以解决doc...

2019-12-26 15:42:56 2625 8

原创 两种方式(Java远程连接、本地shell脚本)遍历加载HDFS一个目录下的多个数据文件到hive表

现有如下,一堆数据文件,以日期命名,因为需要按分区加载到一个分区表中。如果手动加载,会浪费很多时间,所以有两种方式实现自动遍历并加载到hive表。第一种:JAVA代码连接hdfs,读取每一个数据,远程执行hive -e,这样会浪费大量的中间过程。package com.czxy.demo05;import net.neoremind.sshxcute.core.ConnBean;i...

2019-12-25 21:45:44 990 1

原创 IDEA GrepConsole插件 加 log4j 实现控制台输出彩色字体

首先安装GrepConsole插件安装完毕后,重启idea,在控制台多了一个按钮这个是它的控制台界面,可以在这里自定义颜色接下来配合log4j实现彩色输出。log4j所需pom依赖<dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> ...

2019-12-25 09:19:05 1171

原创 Java代码执行linux命令所需的Maven工程的POM的Dependency依赖

使用java代码执行linux命令,maven所需的pom依赖<dependency> <groupId>net.neoremind</groupId> <artifactId>sshxcute</artifactId> <version>1.0</version></dependency>...

2019-12-25 08:24:10 518

原创 Apache HBase HBase与Hive的整合

Hive与HBase的整合hive与我们的HBase各有千秋,各自有着不同的功能,但是归根接地,hive与hbase的数据最终都是存储在hdfs上面的,一般的我们为了存储磁盘的空间,不会将一份数据存储到多个地方,导致磁盘空间的浪费,我们可以直接将数据存入hbase,然后通过hive整合hbase直接使用sql语句分析hbase里面的数据即可,非常方便需求一:将hive分析结果的数据,保存到HB...

2019-12-20 17:25:34 198

原创 Apache HBase HBase与hive的对比

Hive是数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。(不要钻不需要执行MapReduce代码的情况的牛角尖)HBas...

2019-12-19 17:18:54 309

原创 Apache HBase 通过bulkload方式批量加载数据到HBase中

使用HBase的javaAPI或者使用sqoop将数据写入或者导入到HBase中,这些方式不是慢就是在导入的过程的占用Region资料导致效率低下。而Bulkload方式通过MR的程序,将数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase中即可。bulkload优点:1.导入过程不占用Region资源2.能快速导入海量的数据3.节省内存HFileHBa...

2019-12-19 17:12:18 471

原创 Apache HBase 读取HBase数据写出到HDFS上

查看myuser2中数据hbase(main):001:0> scan 'myuser2'ROW COLUMN+CELL 0001 column=f1:age, timestamp=1576629006005, value=\...

2019-12-19 16:13:36 285

原创 Apache HBase JavaAPI 读取HDFS文件,写入HBase表中

第一步:准备数据准备数据文件,并将数据文件上传到HDFS上面去hdfs dfs -mkdir -p /hbase/inputcd /export/servers/vim user.txt0007 zhangsan 180008 lisi 250009 wangwu 20第二步:开发MR程序public class Hdfs2Hbase ...

2019-12-19 16:08:59 852

原创 -- process information unavailable 解决办法

JPS查看发现出现了这个东西:(大多数原因是某个组件崩了)-- process information unavailable首先,重启机器,然后运行如下代码rm -rf /tmp/hsperfdata_*然后重启各个组件,应该就好了。造成这个bug的原因,是意外关闭机器,或者没有按照顺序关闭各个组件。因为大数据的各个组件之间都是相互关联的。...

2019-12-19 14:20:02 2987

原创 Apache HBase 集成MapReduce 读取一张表的数据写入另一张表

HBase当中的数据最终都是存储在HDFS上面的,HBase天生的支持MR的操作,我们可以通过MR直接处理HBase当中的数据,并且MR可以将处理后的结果直接存储到HBase当中去。需求:读取HBase当中一张表的数据,然后将数据写入到HBase当中的另外一张表当中去。注意:我们可以使用TableMapper与TableReducer来实现从HBase当中读取与写入数据。将myuser这张表...

2019-12-18 11:37:44 478

原创 HBase面试题(二)

HBase面试题

2019-12-18 10:14:28 373

原创 Apache ZooKeeper ZK集群一键启动与关闭脚本

for host in node01 node02 node03do ssh $host "source /etc/profile;jps |grep QuorumPeerMain |cut -c 1-4 |xargs kill -s 9" echo "$host zk is stopping"donefor host in node01 node02 node03do ssh $...

2019-12-18 08:23:01 326

原创 Apache HBase JavaAPI 删除数据

根据rowkey删除数据package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoo...

2019-12-17 17:41:58 532

原创 Apache HBase JavaAPI 过滤器查询

文章目录创建maven工程,pom文件:创建表myuser创建maven工程,pom文件:<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifact...

2019-12-17 17:26:37 282

原创 Apache HBase JavaAPI 查询数据

初始化一批数据到HBase当中用于查询package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apach...

2019-12-17 16:16:04 356

原创 Apache HBase JavaAPI 向表中添加数据

package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.clien...

2019-12-17 11:49:48 273

原创 Apache HBase JavaAPI 创建表myuser

package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hba...

2019-12-17 11:42:18 341

原创 Apache HBase JavaAPI POM文件

创建maven工程,pom文件:<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url&gt...

2019-12-17 11:39:04 511

原创 Apache HBase 预分区

预分区的原因增加数据读写效率负载均衡,防止数据倾斜方便集群容灾调度region优化Map数量如何预分区?每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。如何设定预分区?1、手动指定预分区hbase(main):001:0> create 'staff','info'...

2019-12-17 08:57:19 172

原创 Apache HBase rowKey设计技巧

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录通过scan方式,设置startRow和stopRow...

2019-12-17 08:50:45 161

原创 Apache HBase 架构

HBase架构图的理解Client包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。Zookeeper保证任何时候,集群中只有一个master存贮所有Region的寻址入口实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master存储Hbase的schema,包括...

2019-12-17 08:41:02 145

原创 Apache HBase 物理存储架构

物理存储架构整体结构Table中的所有行都按照row key的字典序排列。Table 在行的方向上分割为多个Hregion。region按大小分割的(默认10G),每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阈值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion。Hregio...

2019-12-17 08:39:23 114

原创 Apache HBase 表模型理解

HBase的表数据模型理解Row Key与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式:1 通过单个row key访问2 通过row key的range3 全表扫描Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保...

2019-12-17 08:29:09 236

原创 Apache HBase 三个重要机制 Flush Compact Split

Flush机制1.(hbase.regionserver.global.memstore.size)默认;堆大小的40%regionServer的全局memstore的大小,超过该大小会触发flush到磁盘的操作,默认是堆大小的40%,而且regionserver级别的flush会阻塞客户端读写2.(hbase.hregion.memstore.flush.size)默认:128M单个r...

2019-12-16 17:41:21 361

原创 三元组 概念

计算机中的三元组三元组是指形如((x,y),z)的集合(这就是说,三元组是这样的偶,其第一个射影亦是一个偶),常简记为(x,y,z)。三元组是计算机专业的一门公共基础课程——数据结构里的概念。主要是用来存储稀疏矩阵的一种压缩方式,也叫三元组表。假设以顺序存储结构来表示三元组表(triple table),则得到稀疏矩阵的一种压缩存储方式,即三元组顺序表,简称三元组表。图片中的三元组应该...

2019-12-16 14:41:04 12268

原创 Apache HBase Master的工作机制

master上线前提:hbase集群中可以设置多个master,真正对外提供服务的只有一个。master启动进行以下步骤:1 从zookeeper上获取唯一一个代表active master的锁,用来阻止其它master成为master。2 扫描zookeeper上的server父节点,获得当前可用的region server列表。3 和每个region server通信,获得当前已分配...

2019-12-16 10:30:30 188

原创 Apache HBase Region管理

region分配任何时刻,一个region只能分配给一个region server。master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region server,哪些region还没有分配。当需要分配的新的region,并且有一个region server上有可用空间时,master就给这个region server发送一个装载请求,把reg...

2019-12-16 09:31:51 146

原创 Apache HBase 写数据过程

HBase写数据详细过程Client先访问zookeeper,找到Meta表,并获取Meta表元数据。根据Meta表元数据,确定当前将要写入的数据所对应的HRegion和HRegionServer服务器。Client向该HRegionServer服务器发起写入数据请求,然后HRegionServer收到请求并响应。Client先把数据写入到HLog,以防止数据丢失,然后将数据写入到Mems...

2019-12-16 09:12:01 188

原创 Apache HBase 读数据过程

meta表meta表述hbase系统自带的一个表。里面存储了hbase用户表的元信息。元信息meta表内记录一行数据是用户表一个region的start key 到endkey的范围。meta表位置meta表存储在regionserver里。zookeeper知道具体存储在哪个regionserver里。client询问zookeeper:meta表的位置在哪到meta所在...

2019-12-16 08:44:05 95

原创 Linux awk命令

选项英文含义-F ','field-separator使用 指定字符 分割$ + 数字获取第几段内容$0获取 当前行 内容NFfield表示当前行共有多少个字段$NF代表 最后一个字段$(NF-1)代表 倒数第二个字段NR代表 处理的是第几行模糊查询准备数据vim score.txt文件内容:zh...

2019-12-16 08:18:22 177

原创 Linux 用户、用户组、权限 相关操作

用户组的增删改查添加组groupadd 组名查看组cat /etc/group删除组groupdel 组名修改文件所属的组chgrp 目标组名 文件/目录

2019-12-16 08:17:19 180

原创 Hadoop HDFS的特点

重要特性分块存储(block)默认大小128M(2.x版本),64M(老版本),可修改统一的抽象目录树可通过路径访问文件(hdfs://namenode:port/…)统一管理目录结构和元数据的管理都由namenode(集群主节点)承担负责维护目录树和文件所对应的block块id和所在datanode服务器datanode存储管理集群从节点,每个block可在多个datanode...

2019-12-16 08:14:21 245

转载 ScalarHandler和KeyedHandler概念

ScalarHandler:将单个值封装、例如select count(*),求内容的条数@Testpublic void demo8()throws SQLException{ QueryRunner queryRunner =new QueryRunner(JDBCUtils2.getDataSource()); Object obj =queryRunner.query("se...

2019-12-16 08:07:35 1341

原创 JDBC 连接mysql 的URL

jdbc:mysql://localhost:3306/mydblocalhost是ip地址3306是端口号mydb是数据库名前边的jdbc:mysql://是固定格式

2019-12-16 08:02:46 409

原创 DBCP 概念

数据库连接池—DBCP是 apache common上的一个 java 连接池项目,也是 tomcat 使用的连接池组件。数据库打开连接非常费时,而且为每一个用户打开一个连接对于网络应用来说是不现实的,因此开发者希望能够让所有用户共享一个“连接池”,内存中保存一定的数据库连接,当用户请求的时候就分配一个给他,当用户不需要的时候就将连接放回池中。这就是DBCP等连接池出现的原因。DBCP—D...

2019-12-16 08:00:06 1355

ExcelToSQL源码

ExcelToSQL源码

2023-11-04

人类通用语言算法01:得到字符串字符的所有不重复组合

有一天,我想自己做人工智能。 我首先想到的就是语言问题。也就是人工智能如何认知到这个世界的一切。 我认为生命不过就是信息处理,所以,一种能够表达所有事物的组合性代表性的通用语言是很有用的。 完成这个通用表示语言的第一步,就是根据一个事物,得到它的各种不同表达状态。 这里以人类语言为例,输入一个字符串,可以得到字符串中所有字的组合 我甚至不知道它属于什么算法,也许看了它之后会对你有所启发。 (其实我特别想下载Jooner的源码,苦于没有c币,所以拿出一份独特的源码换几个c币,顺便请大家判断一下这个算法是属于什么类别的,前人是否已经做出类似算法,如果您知道类似的算法,请务必评论留言,不胜感激!)

2018-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除