自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 flink 简单的批处理样例

1. 第一个import是引入flink 批处理执行所需要的环境2. 第二个import是引入flink 的隐式转换,如果没有这个,就会报错3. flink 批处理是不需要env.execute(),这个要特别注意,不然会报各种奇怪的问题4. 注意流式引入与批处理引入的包不一样以下式流式处理的包import org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.scala.StreamExecu.

2020-10-22 09:58:31 312

转载 GeoSpark--Polygon查询

自转:https://www.jianshu.com/p/cb8b14c658b7

2020-11-26 14:45:26 307

原创 非work count的样例

参考我的简书文章:https://www.jianshu.com/p/28bcfe3fd25c

2020-11-23 16:36:27 128 1

原创 纪念一次GC overhead limit exceeded的问题

环境:pycharm-2020.1 + spark-2.3.3(单机默认配置)需求:需要将dataframe 中数据转成json 并写入到s3对象文件中,数据量大小为180.1M。解决方向:在不改变资源参数的情况下,解决GC问题(这只是其中方法之一)出错的核心代码如下:if __name__ == "__main__": """ 1. load the conf of es 2. build spark or sc 3. build

2020-11-06 15:17:17 420

原创 flink checkpoint 在gradle 中的配置

创建上下文环境val streamEnv = StreamExecutionEnvironment.getExecutionEnvironmentstreamEnv.setStateBackend(RocksDBStateBackend)flink 中的checkpoint 有三种配置:1. MemoryStateBackend (flink默认配置)2. FsStateBackend (需要手动配置)3. RocksDBStateBackend (需要额外的包,如下gradle中的代码.

2020-11-03 10:04:46 183

原创 Ubuntu 安装elasticsearch

一、工具:ubuntu20.04 + elasticsearch-7.9.1 + jdk1.8二、下载与上传elasticsearch三、安装elasticsearch 注意root用户下将es拥有者改为非root: chown -R es:es ./elasticsearch四、配置elasticsearch a. 切换到elasticsearch config 目录,修改elasticsearch.yaml,修改的有: # -------------...

2020-10-22 17:04:23 734

原创 Pyspark combineByKey 的算子详解

rdd = sc.parallelize([('B',1),('B',2),('A',5),('A',4),('A',3)]).repartition(3)print("partitions details:",rdd.glom().collect())inOfPartion = (lambda el: [(el, el ** 2)])mergeValInOfPartion = (lambda agg1,e:agg1+[(e,e**2)])mergeOutOfPartition = (lambd.

2020-10-22 11:52:24 227

原创 数据处理--列表相加

ls = [1,6,3,6,8]ls2 = [4,6,8,9,0]第一种方法:以最短的列表的长度为主rslt = [d[0]+d[1] for d in zip(ls,ls2)]第二种方法:for循环,以最短的列表长度为主length = len(ls) if len(ls) <= len(ls2) else len(ls2)new_list = [None] * l...

2018-11-13 21:06:03 2378

原创 Http以及TCP/IP协议

http协议,亦称超文本传输协议:是属于应用层的面向对象的协议,它包括三部分内容:1.请求行;2.消息报头(也称请求头);3.请求正文;现在来仔细谈谈这三方面的内容: 请求篇1.请求行:请求行包括请求方法,访问的资源,以及http版本号; 请求方法包括:GET,PUT,HEAD,Request,Delete,Trace.当然还有其他的。访问的资源,如:xxx.jpg,xxx.txt。http版本

2017-10-07 18:01:21 2064

原创 Mysql存储过程

最近在搞MYSQL。不停的在在复制表,后来嫌麻烦,写了一个存储过程。大家可能都非常清楚如何去复制一张表:create table new_table_name like old_table_name;insert into new_table_name (select * from old_table _name);这两句sql虽然简单,但是在需要一张跟之前完全一样的表时,不断的去写这两句sql太

2017-09-29 15:49:49 296

原创 Python工具包以及资源包

对于大多数学习Python的人来说,经常会安装一些这样,那样的包(或者说是库),但是有时候就不太清楚用什么工具,在哪找相应的包。那今天我想分享下有哪些下载工具以及在哪下载资源包。下载工具:pip install xxx.whl(适用于2.x) ;pip3 install xxx.whl(适用于2.x,3.x);easy_install xxx将相应的资源tar,下载下来解压,然后python

2017-09-29 11:56:06 596

原创 百度图片动态爬取3.0

之前我写百度图片的1.0,2.0,代码在我的GitHub,以及简书上也有我的代码; GitHub地址:https://github.com/RHobart/Web-Crawlers 简书地址:http://www.jianshu.com/p/567542a57af2 今天我在这里写的是关于3.0,这个3.0是对之前百度图片爬虫的一种加强;主要涉及异常处理以及数据库的使用,跟2.0版本其实相差不

2017-09-27 10:42:58 641

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-09-27 10:30:35 230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除