数据恢复 本文摘抄自码农沉思录大黄一、背景突发事件,应用上传的数据被程序自动删掉了,可悲的是还没有数据备份,数据是放在系统的 /data/webapps/xxxx/upload 目录下面,可把我们急坏了,之前又没有做过数据恢复的测试,然后我找到了一款数据恢复的软件,成功把删除的大部分数据找回来了,我的数据恢复过程如下。二、安装恢复软件1、epel 仓库安装如果我们的源里面添加...
面试相关整理 1.自我介绍,包括做过项目。 2.有看过哪些 JDK 源码,了解哪些常用库。 3.集合框架 HashMap 的扩容机制,ConcurrnetHashMap 的原理 4.jvm 内存模型与 gc 内存回收机制 5.classloader 结构,是否可以自己定义一个 java.lang.String 类,为什么? 双亲代理机制。 6.了解哪些设计模式,6...
大数据安全控制和场景分析 1、如何实现 hadoop 的安全机制。 1.1 共享 hadoop 集群: a: 管理人员把开发人员分成了若干个队列,每个队列有一定的资源,每个用户及用户组只能使用某个队列中指定资源。 b: HDFS 上有各种数据,公用的,私有的,加密的。不用的用户可以访问不同的数据。 1.2 HDFS 安全机制 client 获取 namenod...
十个海量数据处理总结 一、Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将 hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不 支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改...
java复习 1、string、stringbuffer,strigBuilder区别 string只读字符串,引用的字符串内容不可以改变 stringBuffer、StringBuilder表示字符串对象,可以进行修改 StringBuilder是单线程环境使用没有synchronized修饰,StringBuffer多线程使用2、抽象类和接口的对比3、JDK的源码需要阅读的:...
maven解决依赖冲突 <dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>2.10.0</version><exclusions>...
书仓介绍 1.ODS层ODS层中的数据全部来自于业务数据库,ODS层的表格也业务数据库中的表格一一对应由于业务数据库(OLTP)基本按照ER实体模型建模,因此ODS层中的建模方式也是ER实体模型。2.DW层DWD层要做的就是将数据清理、整合、规范化、脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不规范的数据都会被处理。DWD层应该是覆盖所有系统的、完整的、干净的、具有一致性的数据层。...
maven打jar包方式 1、https://blog.csdn.net/puhaiyang/article/details/783805502、https://blog.csdn.net/t1dmzks/article/details/811984803、https://blog.csdn.net/wqc19920906/article/details/792574024、https://www.cnblog...
Setting <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m
hive to hbase -- hive -e 'show create table grades' > tableCREATE TABLE `mydb.grades`( `id` int COMMENT 'ID', `name` string COMMENT '姓名', `age` int COMMENT '年龄')ROW FORMAT DELIMITED FIELDS TERMINATE...
分区函数Partition By、带行号row_number()、排序rank()的用法详解 partition by关键字是分析性函数的一部分,它和聚合函数不同的地方在于它能返回一个分组中的多条记录,而聚合函数一般只有一条反映统计值的记录,partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,分区函数一般与排名函数一起使用。准备测试数据:create table Student --学生成绩表( id int, --主键 Grade...
hbase、hadoop、sparkStreaming、sparkCore,sparkShuffle的调优 Hbase的优化服务端优化: hbase.regionserver.handler.count:rpc请求的线程数量,默认值是10,生产环境建议使用100,特别大的时候scan/put几M的数据,会占用过多的内存,有可能导致频繁的GC,甚至oom。 hbase.regionserver.hlog.splitlog.writer.threads:默认值是3,建议设为10,日志切割...
Description Resource Path Location Type The project cannot be built until build path errors are reso 简单,问题是.classth文件所在的信息前后不一致导致冲突,最简单处理方法就是把maven项目重新buildup一下,问题就解决了,还可以直接修改文件内的信息,修改信息参考网上的做法,主要是配置。...
Missing artifact jdk.tools:jdk.tools:jar:1.8的解决方法 使用Scala IDE build of Eclipse SDK 创建了一个Hadoop的MVEN开发工程之后,引入了相关的依赖包 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common --> <dependency> <groupId>o...
sqljdbc4.jar missing maven下的sqlserver配置jar包 看了两天的Scala,开始搭建maven项目,结果在sqlserver的依赖包上受阻,sqlserver需要sqljdbc4.jar包,经过一系列百度教程才得以解决,现在总结一下,方便自己以后查阅,欢迎大家指正: <dependency> <groupId>com.microsoft.sqlserver&l...
impala的介绍以及和hive的区别 最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容) Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduc...
kafka数据缓存到redis的全路径操作流程 第一步:配置redis客户端spark中配置redis客户端的代码参考: import org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.JedisPool object RedisClient extends Serializable { val redis...
阿里代码风格 Table of Contents前言目录一、编程规约(一) 命名风格(二) 常量定义(三) 代码格式(四) OOP规约(五) 集合处理(六) 并发处理(七) 控制语句(八) 注释规约二、异常日志(一) 异常处理(二) 日志规约(九) 其它三、单元测试四、安全规约五、MySQL数据库(一) 建表规约(二) 索引规...