自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

傲慢程序员的偏见

写技术文章,也发感想,偶尔泄露出来的,都是偏见

  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 解决elasticsearch里拒绝更新mapping设置的错误

@[TOC] 解决elasticsearch里拒绝更新mapping设置的错误错误现象对一个es上已经创建的索引,使用python的elasticsearch_dsl 库,Rejecting mapping update to [] as the final mapping would have more than 1 type:新的改变

2021-03-20 23:19:20 2423

原创 系列:用python+antlr解析hive sql获得数据血缘关系(四)

目标系列第三篇里做了基本的AST遍历。在深入做SQL中的表名列名提取前,还需要先解决第三篇里遗留的两个实用性问题,分号和大小写分号问题分号问题的表现是自动生成的HiveParser.java代码,只能解析单个的语句,对包含多个语句的sql文本会报错,甚至连单个语句结尾多一个分号都不行。例如这种SELECT DISTINCT a1.c1 c2, a1.c3 c4, '' c5 FROM ...

2020-01-16 14:19:32 3197 3

原创 系列:用python+antlr解析hive sql获得数据血缘关系(三)

目标系列第二篇里利用了HiveParser.g里的pushMsg输出信息,但还没有得到AST(Abstract Syntax Tree抽象语法树 ),不够实用。除了得到AST之外,第二篇末尾还需要解决下面这3个实用性问题token的大小写问题, Hive里select 和SELECT都能接受分号问题,也就是必须能解析一个字符串里包含多个sql语句的情况解析规则,类似insert-sele...

2020-01-11 14:28:16 2639

原创 系列:用python+antlr解析hive sql获得数据血缘关系(二)

第一篇里初次跑通了HiveLexer.g, 接下来要尝试处理HiveParser.g代码修订为了适应代码目录,和HiveLexer.g类似,也需要对github上下载回来的HiveParser.g做一些处理。如果直接下载hive的完整源码,并且保持目录结构,这个修改倒也可以省去。不过hive本身太大,而且主要的工作是希望用python做的,所以还是改一改更适合python些。改动处Hive...

2020-01-07 10:24:46 3487 1

原创 制作docker版本的轻量级centos虚拟机

原材料docker-engine,最方便是docker desktop文本编辑器编写Dockerfile基于centos 7 的mini镜像。Dockerfile里使用腾讯云的centos源。注释掉的那行是阿里的源,比腾讯源多出来的命令是过滤掉公网不能解析的mirros.cloud.aliyuncs.com所谓的轻量级虚拟机,主要是多一个openssh-server,这样可以在doc...

2020-01-04 14:13:03 639 1

原创 系列:用python+antlr解析hive sql获得数据血缘关系(一)

工作刚开始,边学边记,预计不止两篇三篇的,先提个系列系列目标编程获得数据血缘关系的需求对数据仓库来说并不普遍,只有数据规模达到很大的程度,或者存在复杂数据生产关系的报表数量增加到很大的程度,单独的数据血缘关系工作才有必要。在规模没达到之前,人工的识别和管理是更经济有效的。本系列想要做到的目标是这个uber的 queryparser的一个子集,在有限知道目标数据表结构的前提下,发现并记录目标...

2020-01-03 22:29:04 7304 2

原创 windows版docker desktop里,启动用kubernetes管理的容器

刚完成一波在python编程使用elasticsearch服务的操作,记录一下过程中的小坑环境python

2020-01-01 22:09:20 3129 1

原创 python编程使用elasticsearch服务

原材料我使用的大版本python 3.7elasticsearch 7.4pip 里的elasticsearch 7.1elasticsearch-dsl 7.1简单ORM为了代码简洁,把要进入elasticsearch(简称ES)的文档对应到python里的class下面的代码从官方文档修改而来from elasticsearch_dsl import Document, ...

2019-12-31 17:52:03 279

原创 不要在学习启动管理器和元编程上浪费时间

为什么说不要浪费时间在启动管理器上启动管理器是指引导操作系统启动的一段程序。常见的启动管理器有windows boot manager和grub,这两个都是x86 PC体系里的,macOS和Android范围里也有各自的启动管理器。它们曾经是有价值的,但为什么我说用在学习启动管理器上的时间是浪费的?因为虚拟化技术的进步和计算机硬件的升级。启动管理器最大的用处是在一个PC(也包括服务器)上并存...

2019-12-30 09:45:53 238 1

原创 不是985/211的简历,都扔进垃圾桶,公平吗?

不是985/211的简历,都扔进垃圾桶,公平吗?按学校扔一部分简历是合理手段公平何在!?非985/211的人出路在哪按学校扔一部分简历是合理手段招聘季节里,收简历的速度远远超过人能认真看完的速度。为了看完所有的简历,HR平均到每份简历上就只能花10秒钟,甚至5秒,3秒。绝大多数应届毕业生的简历,只比白纸多几个字。想不注意简历上的学校都难。公平何在!?公平是好东西,大家都想要,特别是对...

2019-12-22 22:39:17 254

原创 解决CentOS 7下Kubernetes报错:"image pull failed for registry.access.redhat.com/rhel7/pod-infrastructure

几个排名靠前的搜索结果都靠不住。现象是CentOS7 下刚装的Kubernetes启动的Pod总是卡在Creating状态,describe pod会返回类似标题的报错信息,具体是 Error syncing pod, skipping: failed to "StartContainer" for "POD" with ErrImagePull: "image pull failed for...

2019-11-15 21:55:36 1858 1

原创 在docker环境里启动Elasticsearch 与 Elasticsearch-head

一忙起来就没动力更新,勉强凑一篇用处和背景单机开发和测试用途,小搜索引擎Elasticsearch 网上的资料多数是ELK的搭配,用来处理日志是不错,但其他用途的就极少了,Elasticsearch-head这个软件都两三年没更新了,很是周折了一番docker怎么装就不废话了,docker官方网站上很多,记得linux要单独安装docker-compose镜像下载docker pull...

2019-11-07 21:55:04 1159 1

原创 Spark的driver和executor简化版理解

为了调试python脚本在spark-sumit时要注意的事项,网上查了一通资料然后发现了这篇Spark的driver理解和executor理解又是图又是代码的讲了好多,其实开头那个图已经有核心要点了图中每一个白背景黑线框就是对应物理机器的粒度图上没有说到的,是driver program的位置会因为提交作业时的deploy-mode参数和cluster manager 的调度策略而...

2019-08-18 21:07:44 908 1

原创 spark实战项目之二,读kafka数据流,分组计数

输入数据来自kafka,十行一组,每组4个数字长这样706260,34,13,10653244,16,8,43395410,23,15,8735026,30,29,16106844,45,29,33796853,14,41,37324616,15,5,37156450,41,2,27385898,47,34,5710053,30,37,27从简单入手,想算出他们按后三个数...

2019-08-17 23:38:13 542

原创 spark实战项目之一,构造kafka数据源

项目背景目的是熟悉spark的使用和编程套路官方demo是要看的,但毕竟是demo,离工程实际太远考虑后,决定构造一个数据沙盒,然后在用spark在这个数据沙盒内实现一个在线推荐算法算法调通后,可以在其他数据集上去尝试效果数据沙盒,是指规划的这个在线推荐算法,接受的所有数据源,包括用户反馈都是程序构造的,算法要解决的实际问题并不是一般的提升转化率或利润率,而是挑战测试数据的输入方。这种...

2019-08-15 15:50:28 235

原创 python chromedriver with selenium on linux

因为要考虑写一个python应用, 查资料时无意发现老朋友selenium已经发展到和chrome很深入的阶段。chrome为了配合自动测试的需求,甚至专门开发chromedriver这样的东西,一时技痒尝试了一下环境是前面搭好的centos7google.com/chrome是墙外无法访问了,幸好还有它自家分号https://www.google.cn/chrome/windows下访...

2019-08-14 09:21:44 269

原创 制作CDH5通用节点模板

虚拟机配置经过几天实际撸不同的安装和配置方式,确认了一个相对最快装机的虚拟机配置方式。虚拟机的一大优势是硬件配置可以灵活调整内存和CPU只要关机后直接调整硬盘只要和前面推荐的一样,普通分区+全盘分配给/ , 利用GParted工具可以随时调整软件配置还是Centos 7的compute node包,加add-ons装好后,就可以利用前面搭好的离线源安装CDH5了,开始安装前,源里没包括...

2019-08-12 22:43:46 212

原创 搭建CDH5私有安装源(下)

mysqlmysql配置好以后,接下来就是给Cloudera Manager做数据库初始化了,安全的做法是给它创建一个单独的用户名和密码,类似这样mysql> grant all on *.* to 'cm'@'%' identified by 'cloudera' with grant option;mysql> flush privileges;自家的虚拟机上就不费那个...

2019-08-12 17:50:08 137

原创 搭建CDH5私有安装源(上)

事项清单CDH5可以在线从Cloudera 的源装, 也可以下载文件从本地离线装,还可以自己搭建安装源。为了方便反复撸,在线从Cloudera装先排除掉,太慢了而且容易断线。本地离线文件的方式我试了一次parcel方式的,虽然成功了但有些鸡肋。CDH5的 parcel文件是一个2G左右的大文件,集群里每个节点不管什么角色,都要有一份这个文件。即使在Cloudera Manager配置好一个...

2019-08-11 23:34:34 389

原创 CDH5虚拟机群设定

虚拟机群设定Virtual BoxCentos 7Virtual BoxCDH5你好,老司机要来撸你了!hadoop的流行发布版一度有四个,社区版,Cloudera, Hortonworks,MapR,2018年Cloudera和Hortonworks合并,2019年MapR裁员,现在只有社区版和cloudera的CDH值得撸社区版有开源软件的各种尿性,版本匹配复杂,各种不在文档中的小坑...

2019-08-11 11:48:47 397

spark-streaming-kafka-0-8-assembly_2.11-2.4.3.jar

pyspark里连接kafka数据源所需的jar文件,放到python所在的site-package下属于pyspark的jars目录下

2019-08-17

MobaXterm_Portable_v12.1.zip

便携式命令行终端mobaxterm,一个可执行文件集成了大量功能,我最喜欢里面的Xserver和http 服务,但免费版http服务只能运行360秒

2019-08-14

mysql-connector-java-8.0.17-1.el7.noarch.rpm

mysql网站上下载的最新版connector, rhel或者centos可用的rpm

2019-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除