自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark问题总结

sparkExecutor内存总体布局默认情况下,Executor不开启堆外内存,因此整个 Executor 端内存布局如下图所示:整个Executor内存区域分为两块:1、JVM堆外内存大小由 spark.yarn.executor.memoryOverhead 参数指定。默认大小为 executorMemory * 0.10, with minimum of 384m。此部分内存主要用于JVM自身,字符串, NIO Buffer(Driect Buffer)等开销。此部分为用户代

2021-03-29 21:43:42 441

原创 git pull 冲突 解决方案

git pull 冲突Step1. 在本地仓库中, 更新并合并代码git fetch origingit rebase origin/3d_planningStep2. 依据提示分别打开冲突的文件, 逐一修改冲突代码Step3. 所有冲突都修改完毕后, 提交修改的代码git add -ugit rebase --continueStep4. 更新patchgit push origin HEAD:refs/for/3d_planning问题fatal: unable to ac

2021-03-13 10:49:47 347

原创 spark 中的limit 会导致原本并发处理的任务转换成两个1个task的stage去处理,如果limit后跟的数很大会导致任务阻塞.器

sparksql 中的limit 会导致原本并发处理的任务转换成两个1个task的stage去处理,如果limit后跟的数很大会导致任务阻塞.加了 limit 所以一个stage转换成 两个各只有1task 的stage。不加limit的话 就只有一个3k的stage。sql语句中加了limit的stage、DAG:不加limit的stage、DAG:...

2021-03-13 10:38:02 726

转载 hive UDAF开发入门和运行过程详解

介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用​​所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用,hive的group by对于每个分组,只能返回一条记录,这点和mysql不一样,切记。UD.

2020-06-15 16:17:12 489

原创 java对象

 一. 对象的内存布局HotSpot 虚拟机中,对象在内存中存储的布局可以分为三块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。二. 对象头JVM 对象头一般占用两个机器码,在 32-bit JVM 上占用 64bit, 在 64-bit JVM 上占用 128bit 即 8+8=16 bytes(开启指针压缩后占用 4+8=12...

2018-09-20 17:38:34 176

原创 hive 踩过的坑

select SrcIP,DstIP,RecTime from(select get_json_object(json,'RecTime') RecTime ,get_json_object(json,'SrcIP') SrcIP,get_json_object(json,'DstIP') DstIPfrom tmp_json_test t) t2distribute by SrcIP,D...

2018-09-14 15:55:41 251

原创 CDH 安装

注:此为hadoop CDH5.11离线安装查看linux1. cat /proc/version (Linux查看当前操作系统版本信息)2.cat /etc/issue  或cat /etc/redhat-release(Linux查看版本当前操作系统发行版信息)3.lsb_release -a 当前操作系统 的 详细信息linux清理缓存的命令查看缓存的命令  fr...

2018-08-21 17:36:31 1315

原创 ambari搭建HDP集群

1. cat /proc/version (Linux查看当前操作系统版本信息)2.cat /etc/issue  或cat /etc/redhat-release(Linux查看版本当前操作系统发行版信息)3.lsb_release -a 当前操作系统 的 详细信息  先安装一个 cdh试一下 后面再安装这个...

2018-08-21 10:51:31 393

转载 深入理解线程通信

https://crossoverjie.top/%2F2018%2F03%2F16%2Fjava-senior%2Fthread-communication%2F

2018-08-16 15:24:09 91

转载 volatile

https://crossoverjie.top/2018/03/09/volatile/

2018-08-16 15:18:05 110

原创 ELK(分布式大数据搜索和日志挖掘及可视化)之实战(先不要审核只是保存一些记录)

logstash 配置input{ file{     path =>"opt/logs/*.sql"     type =>"logjson"     start_position => "beginning"     sincedb_path =>"/dev/null"  }}filter{  js

2017-09-18 09:34:07 885

转载 zookeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee

2017-09-16 20:40:43 505

原创 Elasticsearch获取ES查询的所有结果,并批量导出Excel2

工作环境是内网所以不能截图。搭建了ELK环境。3500W个dic中查询数据,并要求导出excel。从es中查询 status=500,返回为空,查询时间超过2000ms的数据head插件查询出索引的数据sql更方便查询支持标准sqlselect param from logstash-sql---3p where numfounds=0一、kibana画图1.首先是用kibana画条状图,crea...

2017-09-12 08:33:04 11003 6

转载 springmvc与struts2的区别

SpringMVC与Struts2的对比 - 许立峰的专栏 - CSDN博客

2017-09-02 16:18:07 304

转载 JMS

Spring整合JMS(三)——MessageConverter介绍 - Elim的博客 - CSDN博客

2017-08-31 22:46:00 349

原创 TCP/IP socket 等的考点

1.网络由上到下分为 应用层、表示层、会话层、传输层、网络层、数据链路层、物理层 2.http协议是如何包装数据,tcp/ip是如何传输数据, 3.socket是对TCP/IP协议的封装和应用,Socket本身并不是协议,而是一个调用接口(API)。 4.三次握手第一次握手:客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;  第二次握手:服务器收到syn包

2017-08-31 22:45:32 299

原创 Elasticsearch获取ES查询的所有结果,并批量导出Excel

工作环境是内网所以不能截图。搭建了ELK环境。 3500W个dic中查询数据,并要求导出excel。从es中查询 status=500,返回为空,查询时间超过2000ms的数据 head插件查询出索引的数据 sql更方便查询支持标准sql select param from logstash-sql—3p where numfounds=0 一、kibana画图 1.首先是用kibana

2017-08-31 19:06:21 25866 2

原创 java基础

1.为了更好的组织类,java提供了包机制。 包是类的容器,用于分隔类名空间,定义在同一个包package内的类可以不经过import直接互相使用 2.servlet处于服务器进程中,通过多线程运行其service方法,一个实例可以服务多个请求,实例一般不会销毁,cgi对每个请求都产生新的进程,服务完就销毁 3.static关键字修饰的方法或者变量不需要依赖对象就可以访问,只要类被加载中国类名

2017-08-30 20:59:05 177

转载 JVM理解之旅

javaJVM

2017-08-26 21:11:16 267

原创 hadoop之旅(六)

1。job先提交给resourcemanager,resourcemanager分配给各机器的nodemanager 2.split默认按照行来拆,可以通过inputformat修改。

2017-08-26 21:07:19 189

转载 hadoop之旅(五)

1.配置计算调度系统Yarn和计算引擎Map/Reduce 2.namenode上配置mapred-site.xml mapreduce.framework.name yarn 3.yarn-site.xml的配置 yarn.resourcemanager.hostname master yarn.nodemanager.aux-se

2017-08-20 16:10:06 154

转载 (干货):Spark性能优化

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

2017-08-20 10:35:31 218

原创 hadoop之问

1.hadoop主要哪些组件 a. hdfs yarn mapreduce b.hdfs->nn dn 2ndN journalNode 2.hdfs 典型结构(物理+逻辑) 3.hdfs 横向扩展 4.hdfs的典型应用设计,网盘 5.安全与权限kerberos 6.secondary Namenode 7.ha 8.federation超大规模数据中心(name

2017-08-19 23:57:53 154

原创 hadoop之旅(一)环境搭建

前面我们已经搭建好Hadoop,hdfs,一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私

2017-08-19 23:43:39 182

原创 hadoop之旅(四)常用操作(拷贝、权限)

hadoop dfsadmin -safemode leave #解除hadoop的安全模式hadoop fs -copyFromLocal URI#拷贝本地文件到hdfs hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组

2017-08-19 23:41:41 386

原创 hadoop之旅(三)java操作HDFS

8.Java操作HDFS URL url=new URL(“http://www“);//远程操作http协议 inputstream in =url.openStream(); IOUtils.copyBytes(in,System.out,4096,true) 1.方式 URL.setURLStreamHandlerfactory(new FsUrlStreamHandler

2017-08-19 23:40:23 233

原创 hadoop之旅(二)

前面我们已经搭建好hadoop,hdfs,一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私钥一个公

2017-08-19 23:38:50 254

转载 ELK

ELK是(elastic-search, logstash, kibana)的缩写。它提供了可扩展的,风格酷炫的日志平台服务

2017-08-13 18:12:01 176

原创 大数据技术体系,hadoop与spark

大数据技术体系,hadoop与spark图

2017-08-13 12:29:09 478

原创 tensorflow安装python3.6CPUwin10

1,安装python3.6.一定要是64位的tensorflow,一般支持win 64位的2,去官网下载相应的winPython3.6 64位 的tensorflow和numpy(非必须,xiepython 很方便)3,安装3.6 Python\Scripts 自带pip,直接去cmd pip3.6 install 相应tensorflow版本4.不知道是不是tensorflow的bu

2017-08-07 21:42:08 1727

原创 项亮《推荐系统实践》笔记

好的推荐系统个性化推荐系统应用推荐系统评测 离线实验、用户调查和在线实验2。1用户行为数据 协同过滤算法 建立用户兴趣模型 2。4基于邻域的算法是推荐算法中最基本的算法 一基于用户的协同过滤算法 余弦相似度 二是基于物品的协同过滤算法 业界应用最多的算法 活跃

2017-05-08 23:49:43 379

技术之瞳阿里笔试面试笔记知道

技术之瞳阿里 技术之瞳阿里笔试面试笔记指导

2017-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除