自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 docker镜像安装百度LAC和前置依赖Paddle遇到的一些问题以及解决方式

1.windows下docker获取centos镜像并生成对应的系统a.查找对应的centos系统并下载,在powerShell中输入docker search centos我这里直接用的stars最多的原装基础的centos镜像b.拉取镜像文件docker pull centosc.docker查看拉取下来的镜像的IMAGE IDdocker imagesd.创建容器 ,--name表示的是容器的名称,300e315adb2f表示的是 镜像的IMAGE ID ,

2021-03-04 10:34:36 1092

原创 hive中如何删除转义字符分区

1.目的:清理一些hivebiao表中错误的坏分区2.现象: 再插入hive表的时候不小心传入了'{{yyMMdd}' 这种分区。导致hive中分区格式如下,3.处理方式无效的shan删除方式 alter table temp.test drop partition(dt='%7%7yyMMdd}') ; 无效。正确的处理方式:原文删除的方式删除 alter table temp.test drop partition(dt = '{{yyMMdd}');...

2020-12-04 15:08:45 1372 1

翻译 <springboot实战笔记> 关于@Component与@Bean

1、官方说明@Component 和 @Bean 是两种使用注解来定义bean的方式。@Component(和@Service和@Repository)用于自动检测和使用类路径扫描自动配置bean。注释类和bean之间存在隐式的一对一映射(即每个类一个bean)。这种方法对需要进行逻辑处理的控制非常有限,因为它纯粹是声明性的。@Bean用于显式声明单个bean,而不是让Spring像上面那样自动执行它。它将bean的声明与类定义分离,并允许您精确地创建和配置bean。2.两者区别

2020-11-13 11:54:22 753

原创 spark任务执行过程中经常性的failed但是任务并没有失败最后总能跑完

1.现象场景:在spark执行程序中会看到很多的failed但是过程能正常执行完查看如下:ExecutorLostFailure (executor 11 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 941664 ms表面现象的问题是直接某个机器由于心跳超时,超过一定时间没有向master发送心跳,导致master认为该机器节点挂掉,然后将任务放到别的机器上计算导致

2020-09-15 19:31:04 6233

原创 将hdfs数据快速导入clickhouse,并通过linux客户端模式导入array 类型数据

1.背景:开始研究使用clickhouse,在检索clickhouse官网(https://clickhouse.tech/docs/en/)的时候看到jdbc 通过8123端口进行数据的导入和连接。然后写了一个工具往clickhou导入文件,发现是真的慢,而且容易崩。于是研究别的导入方式,发现其实通过客户端命令走9000端口进行导入其实真的又快又稳定。于是彻底抛弃了jdbc的导入方式,直接通过shell脚本控制将hdfs文件导入到clickhouse中,官方对客户端导入的格式是有限制的 详情参考:(htt

2020-08-19 11:46:31 1050

原创 京东云给新建空间添加用户权限,并在jmr中通过linux/hadoop命令查看对应的文件信息

之前使用过亚马逊的云服务和阿里云,现在使用京东云,权限配置这一块还是有区别的,做个小记录,yi以后忘记了就翻一翻。1.京东云对象存储里面新建空间2.进入访问控制3.点击子用户下方数字4.点击你要添加的子用户,并且在策略名中点击你要赋予某个策略权限,并且编辑权限,并且在Resource中增加你要添加的bucket的权限自需要修改最后部分为test就可以了其余的照常使用(出于安全我用555555替代我自己的编号)5.配置完成权限后如果在jmr中配置了 ~/.s3cfg 的

2020-08-19 10:37:33 396

原创 2018年8月8日短期目(zuo)标(si)

背景:吾日三省吾身,作为一个终生学习的职业,心累啊。要时常了解自己的情况让自己心塞,针对性的抓紧时间给自己充电,提高工作效率,避免加班加点然后猝死。      目标制定前先对现有的能力进行评估。然后进行制定。      我个人的认知有可能是错的,希望大家能指正。java方面:java方面:理解并能用集合类型(map、list、set、HashSet、HashMap、Iterator)...

2018-08-08 17:07:36 193

转载 http://www.cnblogs.com/esingchan/tag/MapReduce/ 对mr讲解很深入,记下一个链接。以后翻看

http://www.cnblogs.com/esingchan/tag/MapReduce/

2018-07-26 17:26:41 237

原创 小知识点:windows设置域名解析,类似于linux里面/etc/hosts目录

路径 C:\Windows\System32\drivers\etc 直接修改hosts就可以了,原理和linux里面的一样的。

2018-07-25 15:48:19 477

原创 spark-on-yarn模式配置

前期依赖,正常的集群,包括jdk、hadoop、spark. - 1.在etc/profile里面增加如下几段,有了的就不用重复了 ##hadoop export HADOOP_HOME=/soft/hadoop-2.7.3 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin expor...

2018-07-25 15:36:22 822

转载 kafka配置详解笔记

一、kafka集群搭建详细步骤 1、装好jdk,并配置好zookeeper、hdfs集群2、下载好kafka安装包,解压。3、进入解压后的kafkaconfig目录,主要是server.properties(kafka配置文件) 本文主要参考:http://blog.51cto.com/lee90/2067533,仅个人笔记使用。cd /soft/kafka/configvi /...

2018-07-25 10:58:07 7545

原创 散搭建集群

3一、虚拟机以及系统的搭建、网络的设置。1.装VMware(我用的就是11的)下载地址: https://www.fixdown.com/vmware.htm2.下载centos镜像 (我用的是centos7)下载地址:https://www.centos.org/download/3.把镜像文件加入到虚拟机中,发现问题(我用的是thinkpad)问题1:解决方案:...

2018-07-25 10:50:48 215

原创 网络间数据传输之串行化(avro和protobuf)步骤流程

串行化:本质上说就是一种数据格式。序列化、反序列化具体含义:https://www.cnblogs.com/keyi/p/5955220.html所有数据文件之间的传输底层都是字节数组的传输,八位一个字节。网络间传输要使效率增加,主要还是串行化和压缩。使用google protobuf来实现串行化 步骤如下:    1.下载google protobuf。    2.设计对象        标准j...

2018-05-30 09:35:51 725

转载 关于hive的安装、配置项详解的一些内容存档

做这个只是方便个人的一个快速查看方便,记录下一些大神的地址位置,方便自己以后忘记可以快速翻看,提高效率。0、hive官网资料https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration1、hive的安装http://blog.fens.me/hadoop-hive-intro/2、hive的配置项详解https...

2018-05-03 16:12:06 139

翻译 equals和==的区别

由于老是忘记,所以给自己留一点提示。每次忘记都会来看看然后补充一下因为==在比较对象的时候,是比较他们是不是引用的同一个对象。而equals比较对象的“值”是否相等。当然,有些对象的equals函数木有重载,这个时候,也是1的解释。所以。。。你要看看是哪个对象。...

2018-03-15 16:06:56 130

转载 (工具篇)一个git管理很强大的软件SourceTree

    站在前人的肩膀上,你可以看的更远。记录下来,忘记的时候可以常看看。具体安装以及使用方法:http://blog.csdn.net/u012230055/article/details/64125268具体分支管理:https://www.cnblogs.com/tian-xie/p/6264104.html...

2018-03-13 17:26:14 800

原创 在VM中安装CentOs后无法切换到root用户

一、问题描述:刚装好的CentOs7 64位系统,运行 (sudo) yum install sz 后显示      wang is not in the sudoers file . this incident will be reported      you need to be root to perform this command这个时候试过了 ” su - “ 也是显示wang is...

2018-03-08 10:50:56 2915

翻译 B+树/B+树/B-树(概念)https://baike.baidu.com/item/B+树/7845683?fr=aladdin

这部分主要是给自己记录一些知识点的,主要是忘记的时候可以快速定位,快速捡起来。由于不允许转载,所以给下链接。还是很感谢他们的,都整理好了。B+树是一般的数据库和文件系统的文件在载体里面的一种元数据索引。简单点说就是数据之间的关系结构。    https://baike.baidu.com/item/B+树/7845683?fr=aladdinB-树的基本概念以及代码实现    http://blo...

2018-03-07 11:16:56 3511

原创 IntelliJ IDEA工具篇之如何切换git分支

目的:由于刚开始用IntelliJ IDEA不太清楚如何切换分支,百度了感觉写的不太清晰。自己整理写一个。难者不会,会者不难!1、进入项目和工程。2、如图所示点击右下角的git:master,然后选择origin/master,然后选择你要切换的分支,我目前在master分支,换dev分支就选择origin/dev,然后选择Checkout as new loca...

2018-03-07 11:01:32 68712 7

原创 在MR程序中连接传值(通讯)的问题

首先在MR程序中,传值(通讯)分为Driver ->map/reduce   , Map->Reduce两种,其实都是通过Configuration来进行的。1.前者Driver ->map/reduce 主要 通过Configuration 来进行传值,包括设置Map,Reduce的输入输出类型,找到匹配的Map,Reduce类等等。主要代码如下在Driver中配置参数,将输入的begi

2018-02-26 19:54:23 281

原创 java学习笔记一:类的执行过程

类里面有很多成员,有成员变量:静态非静态之分。类里面还有静态代码块和非静态代码块(构造代码块),还有方法,静态方法和非静态方法,还有构造函数。类加载和和实例化的过程,就是把类加载到jvm中,静态代码块在类加载的时候就被调用了,静态成员在方法区在执行过程中有个顺序,执行顺序先对所有成员变量赋默认值然(成员变量赋默认值+静态代码块)后从上倒下,先进行初始化然后进行赋值,赋值操作和动态代码块

2018-02-06 09:06:39 214

原创 博客园由于未知原因我无法博客搬家,我以前在博客园的地址链接http://www.cnblogs.com/Willie-WangLiang/

博客园由于未知原因我无法博客搬家,我以前在博客园的地址链接http://www.cnblogs.com/Willie-WangLiang/

2018-02-05 19:53:41 253

原创 英语爬坑之旅一

2018-02-05 19:42:15 139

原创 《Hadoop实战第2版》Yarn学习笔记一(原理)

总体内容:1、MR局限性,  2、第二代MR(yarn)主要思想架构一、Hadoop MapReduce框架的局限性 1、JobTracker单点瓶颈。由于JobTracker负责作业的分发、管理和调度,还要和集群中所有的节点保持heartbeat通信,了解机器的运行状态和资源情况,随着集群的数量和提交job数量的增加,JobTracker任务量随之上涨,造成JobTracke

2018-02-05 16:59:02 358

原创 (不用看)前言篇:一切为了效(偷)率(懒)

很多事情每当做一件事之前我都会稍微考虑一下我做这件事的原因是什么(需求),想达到什么效果(目的),对我有什么好处(评判优先级)。可能有点功利性,但这是个偷懒的好方法,可以帮我挡住很多东西。没错,我就是为了偷懒才制定这个标准的。 1、需求:经常翻看官网或者学习资料的时候,发现以前看过这个单词,但是忘记了。每次查询浪费时间太多,而且容易打乱思维,经常查单词查着查着就偏了。 2、目的:在别的

2018-02-05 11:29:08 125

转载 hive篇之常用的hive命令

转自:http://www.aboutyun.com/forum.php?mod=viewthread&tid=8590&highlight=hive问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表*.hive查看建表语句    show create table table_name

2018-02-02 11:18:10 424

原创 数据结构的学习笔记二

指针的概念:指针就是地址,地址就是指针。指针变量是存放内存单元地址的变量。指针本质就是一个操作受限的非负整数地址:内存单元的编号。从0开始的非负整数 范围:0--FFFFFFFF [ 0 --> (4G-1) ](当内存大小为4G的时候)地址的用途如下: cpu -->内存 通过三根线连接,数据线、地址线、控制线。   数据线用于传送数据  地址线用于传送地址 

2018-01-31 22:08:59 187

原创 数据结构学习笔记一

数据结构的整体轮廓数据结构:把现实中大量而复杂的问题以特定的数据结构和特殊的存储结构存到内存中,以及在此基础上为实现某个功能(查找,删除,排序)而执行的操作,这个操作叫算法。 简单说就是个体如何存,个体和个体关系怎么存(数据如何存)就是数据结构,如何操作(解题的方法和步骤)叫算法,评判标准:时间复杂度(执行的次数而非时间)和空间复杂度(占用的内存),难易程度和健壮性线性结构(连续存

2018-01-31 20:34:32 264 1

原创 自己碰到的一个control +鼠标左键无效问题。

下载工程的时候发现control+鼠标左键没用,查他的被引用显示找不到文件。看了一下自己的window-->preferences-- >General-->Editors-->Text Editors-->hyperlink.   发现也全被勾上了。 这下子就神奇了,关掉了eclipse重新打开还是显示找不到文件,这就是加载的问题了。但是重新打开了怎么还显示这个问题?然后右键工程

2017-12-19 15:33:06 1363

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除