PeterGss-CSDN博客

原创 spark问题总结

sparkExecutor内存总体布局默认情况下，Executor不开启堆外内存，因此整个 Executor 端内存布局如下图所示:整个Executor内存区域分为两块：1、JVM堆外内存大小由 spark.yarn.executor.memoryOverhead 参数指定。默认大小为 executorMemory * 0.10, with minimum of 384m。此部分内存主要用于JVM自身，字符串, NIO Buffer（Driect Buffer）等开销。此部分为用户代

2021-03-29 21:43:42 441

原创 git pull 冲突解决方案

git pull 冲突Step1. 在本地仓库中, 更新并合并代码git fetch origingit rebase origin/3d_planningStep2. 依据提示分别打开冲突的文件, 逐一修改冲突代码Step3. 所有冲突都修改完毕后, 提交修改的代码git add -ugit rebase --continueStep4. 更新patchgit push origin HEAD:refs/for/3d_planning问题fatal: unable to ac

2021-03-13 10:49:47 347

原创 spark 中的limit 会导致原本并发处理的任务转换成两个1个task的stage去处理,如果limit后跟的数很大会导致任务阻塞.器

sparksql 中的limit 会导致原本并发处理的任务转换成两个1个task的stage去处理,如果limit后跟的数很大会导致任务阻塞.加了 limit 所以一个stage转换成两个各只有1task 的stage。不加limit的话就只有一个3k的stage。sql语句中加了limit的stage、DAG：不加limit的stage、DAG：...

2021-03-13 10:38:02 726

转载 hive UDAF开发入门和运行过程详解

介绍hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复杂，不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用，hive的group by对于每个分组，只能返回一条记录，这点和mysql不一样，切记。UD.

2020-06-15 16:17:12 489

原创 java对象

一. 对象的内存布局HotSpot 虚拟机中，对象在内存中存储的布局可以分为三块区域：对象头（Header）、实例数据（Instance Data）和对齐填充（Padding）。二. 对象头JVM 对象头一般占用两个机器码，在 32-bit JVM 上占用 64bit，在 64-bit JVM 上占用 128bit 即 8+8=16 bytes（开启指针压缩后占用 4+8=12...

2018-09-20 17:38:34 176

原创 hive 踩过的坑

select SrcIP,DstIP,RecTime from(select get_json_object(json,'RecTime') RecTime ,get_json_object(json,'SrcIP') SrcIP,get_json_object(json,'DstIP') DstIPfrom tmp_json_test t) t2distribute by SrcIP,D...

2018-09-14 15:55:41 251

原创 CDH 安装

注：此为hadoop CDH5.11离线安装查看linux1. cat /proc/version （Linux查看当前操作系统版本信息）2.cat /etc/issue 或cat /etc/redhat-release（Linux查看版本当前操作系统发行版信息）3.lsb_release -a 当前操作系统的详细信息linux清理缓存的命令查看缓存的命令　　fr...

2018-08-21 17:36:31 1315

原创 ambari搭建HDP集群

1. cat /proc/version （Linux查看当前操作系统版本信息）2.cat /etc/issue 或cat /etc/redhat-release（Linux查看版本当前操作系统发行版信息）3.lsb_release -a 当前操作系统的详细信息先安装一个 cdh试一下后面再安装这个...

2018-08-21 10:51:31 393

转载深入理解线程通信

https://crossoverjie.top/%2F2018%2F03%2F16%2Fjava-senior%2Fthread-communication%2F

2018-08-16 15:24:09 91

转载 volatile

https://crossoverjie.top/2018/03/09/volatile/

2018-08-16 15:18:05 110

原创 ELK（分布式大数据搜索和日志挖掘及可视化）之实战（先不要审核只是保存一些记录）

logstash 配置input{ file{ path =>"opt/logs/*.sql" type =>"logjson" start_position => "beginning" sincedb_path =>"/dev/null" }}filter{ js

2017-09-18 09:34:07 885

转载 zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee

2017-09-16 20:40:43 505

原创 Elasticsearch获取ES查询的所有结果,并批量导出Excel2

工作环境是内网所以不能截图。搭建了ELK环境。3500W个dic中查询数据，并要求导出excel。从es中查询 status=500，返回为空，查询时间超过2000ms的数据head插件查询出索引的数据sql更方便查询支持标准sqlselect param from logstash-sql---3p where numfounds=0一、kibana画图1.首先是用kibana画条状图，crea...

2017-09-12 08:33:04 11003 6

转载 springmvc与struts2的区别

SpringMVC与Struts2的对比 - 许立峰的专栏 - CSDN博客

2017-09-02 16:18:07 304

转载 JMS

Spring整合JMS（三）——MessageConverter介绍 - Elim的博客 - CSDN博客

2017-08-31 22:46:00 349

原创 TCP/IP socket 等的考点

1.网络由上到下分为应用层、表示层、会话层、传输层、网络层、数据链路层、物理层 2.http协议是如何包装数据，tcp/ip是如何传输数据， 3.socket是对TCP/IP协议的封装和应用,Socket本身并不是协议，而是一个调用接口(API)。 4.三次握手第一次握手：客户端发送syn包(syn=j)到服务器，并进入SYN_SEND状态，等待服务器确认;　　第二次握手：服务器收到syn包

2017-08-31 22:45:32 299

原创 Elasticsearch获取ES查询的所有结果,并批量导出Excel

工作环境是内网所以不能截图。搭建了ELK环境。 3500W个dic中查询数据，并要求导出excel。从es中查询 status=500，返回为空，查询时间超过2000ms的数据 head插件查询出索引的数据 sql更方便查询支持标准sql select param from logstash-sql—3p where numfounds=0 一、kibana画图 1.首先是用kibana

2017-08-31 19:06:21 25866 2

原创 java基础

1.为了更好的组织类，java提供了包机制。包是类的容器，用于分隔类名空间，定义在同一个包package内的类可以不经过import直接互相使用 2.servlet处于服务器进程中，通过多线程运行其service方法，一个实例可以服务多个请求，实例一般不会销毁，cgi对每个请求都产生新的进程，服务完就销毁 3.static关键字修饰的方法或者变量不需要依赖对象就可以访问，只要类被加载中国类名

2017-08-30 20:59:05 177

转载 JVM理解之旅

javaJVM

2017-08-26 21:11:16 267

原创 hadoop之旅（六）

1。job先提交给resourcemanager，resourcemanager分配给各机器的nodemanager 2.split默认按照行来拆，可以通过inputformat修改。

2017-08-26 21:07:19 189

转载 hadoop之旅（五）

1.配置计算调度系统Yarn和计算引擎Map/Reduce 2.namenode上配置mapred-site.xml mapreduce.framework.name yarn 3.yarn-site.xml的配置 yarn.resourcemanager.hostname master yarn.nodemanager.aux-se

2017-08-20 16:10:06 154

转载（干货）：Spark性能优化

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

2017-08-20 10:35:31 218

原创 hadoop之问

1.hadoop主要哪些组件 a. hdfs yarn mapreduce b.hdfs->nn dn 2ndN journalNode 2.hdfs 典型结构（物理+逻辑） 3.hdfs 横向扩展 4.hdfs的典型应用设计，网盘 5.安全与权限kerberos 6.secondary Namenode 7.ha 8.federation超大规模数据中心（name

2017-08-19 23:57:53 154

原创 hadoop之旅（一）环境搭建

前面我们已经搭建好Hadoop，hdfs，一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私

2017-08-19 23:43:39 182

原创 hadoop之旅（四）常用操作（拷贝、权限）

hadoop dfsadmin -safemode leave #解除hadoop的安全模式hadoop fs -copyFromLocal URI#拷贝本地文件到hdfs hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组

2017-08-19 23:41:41 386

原创 hadoop之旅（三）java操作HDFS

8.Java操作HDFS URL url=new URL(“http://www“);//远程操作http协议 inputstream in =url.openStream(); IOUtils.copyBytes(in,System.out,4096，true) 1.方式 URL.setURLStreamHandlerfactory(new FsUrlStreamHandler

2017-08-19 23:40:23 233

原创 hadoop之旅（二）

前面我们已经搭建好hadoop，hdfs，一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私钥一个公

2017-08-19 23:38:50 254

转载 ELK

ELK是(elastic-search, logstash, kibana)的缩写。它提供了可扩展的，风格酷炫的日志平台服务

2017-08-13 18:12:01 176

原创大数据技术体系，hadoop与spark

大数据技术体系，hadoop与spark图

2017-08-13 12:29:09 478

原创 tensorflow安装python3.6CPUwin10

1，安装python3.6.一定要是64位的tensorflow，一般支持win 64位的2，去官网下载相应的winPython3.6 64位的tensorflow和numpy（非必须，xiepython 很方便）3,安装3.6 Python\Scripts 自带pip，直接去cmd pip3.6 install 相应tensorflow版本4.不知道是不是tensorflow的bu

2017-08-07 21:42:08 1727

原创项亮《推荐系统实践》笔记

好的推荐系统个性化推荐系统应用推荐系统评测离线实验、用户调查和在线实验2。1用户行为数据协同过滤算法建立用户兴趣模型 2。4基于邻域的算法是推荐算法中最基本的算法一基于用户的协同过滤算法余弦相似度二是基于物品的协同过滤算法业界应用最多的算法活跃

2017-05-08 23:49:43 379

qq_32674727的博客