纪念一次GC overhead limit exceeded的问题 环境:pycharm-2020.1 + spark-2.3.3(单机默认配置)需求:需要将dataframe 中数据转成json 并写入到s3对象文件中,数据量大小为180.1M。解决方向:在不改变资源参数的情况下,解决GC问题(这只是其中方法之一)出错的核心代码如下:if __name__ == "__main__": """ 1. load the conf of es 2. build spark or sc 3. build
flink checkpoint 在gradle 中的配置 创建上下文环境val streamEnv = StreamExecutionEnvironment.getExecutionEnvironmentstreamEnv.setStateBackend(RocksDBStateBackend)flink 中的checkpoint 有三种配置:1. MemoryStateBackend (flink默认配置)2. FsStateBackend (需要手动配置)3. RocksDBStateBackend (需要额外的包,如下gradle中的代码.
Ubuntu 安装elasticsearch 一、工具:ubuntu20.04 + elasticsearch-7.9.1 + jdk1.8二、下载与上传elasticsearch三、安装elasticsearch 注意root用户下将es拥有者改为非root: chown -R es:es ./elasticsearch四、配置elasticsearch a. 切换到elasticsearch config 目录,修改elasticsearch.yaml,修改的有: # -------------...
Pyspark combineByKey 的算子详解 rdd = sc.parallelize([('B',1),('B',2),('A',5),('A',4),('A',3)]).repartition(3)print("partitions details:",rdd.glom().collect())inOfPartion = (lambda el: [(el, el ** 2)])mergeValInOfPartion = (lambda agg1,e:agg1+[(e,e**2)])mergeOutOfPartition = (lambd.
flink 简单的批处理样例 1. 第一个import是引入flink 批处理执行所需要的环境2. 第二个import是引入flink 的隐式转换,如果没有这个,就会报错3. flink 批处理是不需要env.execute(),这个要特别注意,不然会报各种奇怪的问题4. 注意流式引入与批处理引入的包不一样以下式流式处理的包import org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.scala.StreamExecu.
数据处理--列表相加 ls = [1,6,3,6,8]ls2 = [4,6,8,9,0]第一种方法:以最短的列表的长度为主rslt = [d[0]+d[1] for d in zip(ls,ls2)]第二种方法:for循环,以最短的列表长度为主length = len(ls) if len(ls) <= len(ls2) else len(ls2)new_list = [None] * l...
Http以及TCP/IP协议 http协议,亦称超文本传输协议:是属于应用层的面向对象的协议,它包括三部分内容:1.请求行;2.消息报头(也称请求头);3.请求正文;现在来仔细谈谈这三方面的内容: 请求篇1.请求行:请求行包括请求方法,访问的资源,以及http版本号; 请求方法包括:GET,PUT,HEAD,Request,Delete,Trace.当然还有其他的。访问的资源,如:xxx.jpg,xxx.txt。http版本
Mysql存储过程 最近在搞MYSQL。不停的在在复制表,后来嫌麻烦,写了一个存储过程。大家可能都非常清楚如何去复制一张表:create table new_table_name like old_table_name;insert into new_table_name (select * from old_table _name);这两句sql虽然简单,但是在需要一张跟之前完全一样的表时,不断的去写这两句sql太
Python工具包以及资源包 对于大多数学习Python的人来说,经常会安装一些这样,那样的包(或者说是库),但是有时候就不太清楚用什么工具,在哪找相应的包。那今天我想分享下有哪些下载工具以及在哪下载资源包。下载工具:pip install xxx.whl(适用于2.x) ;pip3 install xxx.whl(适用于2.x,3.x);easy_install xxx将相应的资源tar,下载下来解压,然后python
百度图片动态爬取3.0 之前我写百度图片的1.0,2.0,代码在我的GitHub,以及简书上也有我的代码; GitHub地址:https://github.com/RHobart/Web-Crawlers 简书地址:http://www.jianshu.com/p/567542a57af2 今天我在这里写的是关于3.0,这个3.0是对之前百度图片爬虫的一种加强;主要涉及异常处理以及数据库的使用,跟2.0版本其实相差不
欢迎使用CSDN-markdown编辑器 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl