- 博客(17)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 用MLSQL完成简书图片备份
前言我今天正好想做两个事,第一个是,我想把我简书内容备份下来,但是官方提供的备份功能只能备份成markdown,然后发现图片没办法备份。所以我需要把我简书里的所有图片下载下来。第二个是,我要下载一些jar包,但是只有jar包的名字,没有下载链接,我想生成这些链接然后用wget下载下来。作为一个程序员,我肯定是要写脚本啦,可以是shell脚本,可以是p...
2019-03-28 17:50:00 341
原创 MLSQL Cluster 多Engine管理设计
前言我之前写了篇很简单的去描述了MLSQL Cluster 路由策略。有朋友就问,有没有一个更清晰一点的设计说明。这篇内容就是为这个目标而写的。场景脱离场景说设计就是扯淡。所以,MLSQL Cluster适用的场景是是什么呢?不同业务线需要不同的MLSQL Engine.同一个业务线也可能需要多个MLSQL Engine同一个业务可能需要多个...
2019-03-27 10:25:00 270
原创 对技术负债,技术和业务权衡和重构,重写,升级的一些看法
技术负债在技术圈,有一个债务术语叫【技术负债】或者【技术债务】。【技术负债】带来的显性和隐性成本是非常高的。显性的是技术不给力, 运营/产品/商业团队都很难受,而这种难受实际带来的损失会比想象的大,甚至对整个公司的前景都产生了影响。第二个是隐性的,隐性的是指 虽然你随便找个团队都能把某件事情(系统)做出来,但是这个事情(系统)埋的雷太多,它只是跑起来了,但其实不能持续的跑。不能持续的跑体...
2019-03-26 17:27:31 556
原创 MLSQL如何帮助分析师更高效
前言我之前写过一篇文章叫如何按程序员思维写分析师脚本,这里主要是在两方面帮助分析师:将程序员一些较为高效的工作模式转移到分析师身上,这包括脚本片段复用,脚本include,工程项目,视图等。MLSQL平台提供这些思维的功能支持。迄今为止,在之前文章提到的所有功能点,都已经在MLSQL中实现。当然,拥有这些还是远远不够的,因为SQL语言自身的设计...
2019-03-25 10:41:00 211
原创 MLSQL数据源开发指南
前言MLSQL支持标准的Spark DataSource数据源。典型使用如下:load hive.`public.test` as test;set data='''{"key":"yes","value":"no","topic":"test","partition":0,"offset":0,"timestamp":"2008-01-24 1...
2019-03-21 18:16:00 791 1
原创 MLSQL 编译时权限控制
前言权限控制,对于MLSQL而言的重要程度可以说是生命线。 MLSQL需要面对各式各样的资源访问,比如MySQL, Oracle,HDFS,Hive,Kafka,Sorl,ElasticSearch,Redis,API,Web等等,不同用户对这些数据源(以及表,列)的权限是不一样的。传统模式是,每个用户都需要有个proxy user,然后到每个数据源...
2019-03-21 16:00:00 251
原创 MLSQL Cluster 路由策略
前言MLSQL Cluster 具备多MLSQL Engine 实例管理功能,实现负载均衡,多业务切分等等功能。负载均衡MLSQL Cluster 有一个和MLSQL Engine完全一致的 /run/script 接口,参数也是保持一致的。如何查看该接口详细参数以及MLSQLCluster 有什么接口,可以参看 MLSQL初学者常见问题QA(...
2019-03-20 10:25:00 273
原创 再谈数据中台是什么以及MLSQL为什么可以作为数据中台
昨天还是前天,正好看到朋友圈里大家都在发AI前线推的一篇文章。数据中台已成下一风口,它会颠覆数据工程师的工作吗?, 个人认为风口谈不上,但是确实是技术发展到一定程度的产物。这里的技术不仅仅是大数据,也是后端,前端技术前进的共同产物。N年前我们是想都不会想这件事情的,因为技术上很难达到。文章认为数据中台出现的原因是为了弥补数据开发和应用开发严重不匹配而出现...
2019-03-19 11:06:00 1329 1
原创 手动安装和启动MLSQL三套件
MLSQL-Engineclone项目git clone git@github.com:allwefantasy/streamingpro.git编译cd streamingproexport MLSQL_SPARK_VERSION=2.4./dev/package.sh你会在如下目录发现一个jar包:streamingpro-...
2019-03-18 17:14:00 620
原创 MLSQL初学者常见问题QA(持续更新)
常见问题集锦MLSQL 架构图有么?数据源有详细参数配置文档么?...后台是怎么区分batch还是streaming的?比如我load kafka,同时又load hbase,mysql或者es,这种情况下底层对应的作业时 streaming的还是batch的,逻辑都是在window范围内执行的吗engine本身是个spark的app,里面提供的...
2019-03-16 22:36:00 704
原创 数据部门起步阶段需要建立数仓么?
之前我写了一篇关于数据中台和数仓的关系 的文章,里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式: 数据联邦和数据仓储。显然传统的数仓采用的是数据仓储的概念,而中台则更合适的是数据联邦,同时,在中台看来,实际的数据存储应该是联邦以及仓储混合的模式。但是我发现很多公司在组建数据部门的时候,第一步都是通过hive建立数仓,但...
2019-03-15 14:48:00 554 1
原创 MLSQL Stack 一键体验
体验地址:http://docs.mlsql.tech/mlsql-console/blog/demo.html命令在终端执行如下指令:bash <(curl http://download.mlsql.tech/scripts/run-all.sh)注意事项:用户需要确保在操作系统为Linux(Mac 也是Ok的),有docker环境即可。请确保执行的电脑 9002,9003...
2019-03-13 22:25:27 26
原创 MLSQL生态一键体验
前言MLSQL Console是1.2.0发布前最重要的一个产品。MLSQL Console提供了除交互界面以外,还有很多其他重要的意义:提供了一套自助化的用户账号和权限体系。提供了脚本管理功能展示了大量如何和MLSQL Cluster / MLSQL Engine 进行交互的方式,用户可以据此开发自己的Console另外,权限我们目前是到表...
2019-03-13 22:25:00 643
原创 MLSQL-Console 账号体系设计
MLSQL ConsoleMLSQL Console 的账号权限体系设计就是用户自己玩,没有超级管理员。设计的角色有:User (任何人都可以MLSQL Console去注册)Team (任何人都可以创建任意组Team)Role (在特定Team下用户自己创建角色)Table (表是所有操作的对象)AuthType (表的权限类型,比如loa...
2019-03-12 18:16:00 415
原创 产品和运营如何利用MLSQL完成excel处理
概览MLSQL Console 是一款集数据研发,数据分析,机器学习等于一体Web产品。他的目标是让产品,运营,分析师,研发,算法等都有一个统一的数据工作台。这篇文章重点面向产品和运营,在该文章中,他们会学习到如何在该平台上操作excel,关联多个excel,同时将结果进行图表化。工作区介绍image.pngimage.png...
2019-03-05 15:06:00 651 1
原创 数据中台和数仓的关系
传统数仓传统数仓有几个特点:数据具有历史性基于文件存储以表为形态,自带元数据存储(比如Hive)在数仓的数据是其他数据的拷贝或者拷贝的加工传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以我们需要把MySQL等数据源的数据同步到数仓,才能进行进一步处理,另外传统数仓更关注的是数据的历史状态,所以导致数据规模庞大。 数仓本...
2019-03-04 12:58:00 5775
原创 MLSQL 真香(尝鲜版)
MLSQL Console 介绍MLSQL 目前已经初步有一套Web Console 供使用。界面相对来说也比较清爽。我们先来看看一个尝鲜版本。image.png左侧是脚本区,右侧分别是快捷菜单,脚本编辑区,命令区,信息显示区,工具和可视化,最下面是数据呈现。我们打开Quick Menu,image.png红色元素都是可...
2019-03-01 15:29:00 621 1
hibernate 关联保存 的困惑
2009-10-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人