- 博客(339)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注

原创 MLSQL -个人开源项目的成长之路
前言今天看了下项目的first commit log, 发现再过几天,就已经三年整了。commit bbf08489f2e3c58afd584e03b8c9c83d25c63b3bAuthor: WilliamZhu <allwefantasy@gmail.com>Date: Thu Apr 28 15:04:13 2016 +0800open-source versi...
2019-04-23 15:46:06
5538
原创 技术人员如何形成差异化竞争力让自己活下去
随着大的经济环境的影响,我看到很多人开始变得焦虑,技术人员也开始焦虑。其实我也会焦虑。从宏观角度来看,国内很多企业一直走不出国门,难以进一步做增长,导致需求减少。而互联网行业也整体进入稳定期,对新业务不再像以前那样不计成本,导致需要的人也大幅度减少,与此同时,源源不断的大学生进入社会,供需的这种变化导致技术人员越来越不值钱。从微观角度看,一般技术人员也只是手上有一门很多人都有的“手艺”,并没有形成...
2023-08-25 12:52:10
28
原创 用加持了大模型的 Byzer-Notebook 做数据分析是什么体验
Byzer-Notebook 是专门为 SQL 而研发的一款 Web Notebook。他的第一公民是 SQL,而 Jupyter 则是是以 Python 为第一公民的。随着 Byzer 引擎对大模型能力的支持日渐完善, Byzer-Notebook 也在不自觉中变得更加强大。我和小伙伴在聊天的过程中才发现他已经具备了如此强的能力。为了节省大家时间,我们这里把文后涉及到的部分,提前做个总结,帮助...
2023-08-20 12:08:31
957
1
原创 大模型杀手级场景到底什么会到来
大模型大潮之下,熙熙攘攘,皆为利来,皆为利往。所以很多人观望之后发现到现在还没有杀手级落地场景,便有些不耐烦了,觉得可能又是一股泡沫。但究竟是不是泡沫,需要从宏观角度分析下当前大模型的现状。笔者认为这种不耐烦其实来源于两个原因:1. 天下事,在局外呐喊议论,总是无益,必须躬身入局,挺膺负责,方有成事之可冀。大部分人仅仅是局外观看而已,这样大体是难看到实际情况的。2. 基于大模型的机会,他的安身立命...
2023-07-22 12:32:17
41
原创 创新不是靠痛点,而是靠对效率的持续追求
什么都等到痛了才去做,要你何用在互联网行业做产品,亦或是创业给投资人讲故事,一个很核心的点就是要问自己或者告诉对方,我的产品击中了什么痛点?似乎一切都是靠痛点驱动的。但我认为这是浮于表面的。创新不是靠痛点,而是靠对效率的持续追求来提升的。在我们的内心世界,我们认为痛点驱动是一个理所当然的事情。只有有了痛,我们才有动力去解决它。奈何能感受到痛的是人,而人基因里就包含了一件事...
2022-05-17 11:59:28
182
原创 增长黑客 - 开源项目增长利器
2012 年我开源了自己的第一个项目 https://github.com/allwefantasy/ServiceFramework ,这个项目并不成功,但对我个人的价值还是比较大的,一直作为我工具箱用到现在。从 16 年开始,我全身心的投入到 [Byzer](https://github.com/byzer-org) 项目, 至今已有 6 年。衡量社区增长的指标其实有...
2022-05-06 22:42:29
229
原创 创新者的孤独
我在刚入行的时候,经常看 JavaEye(现在的 Iteye)论坛,那个时候有个猛人开发了一个web框架 Douyu 在论坛里一炮走红。他通过改写 Java 编译器来实现很多原先实现不了的动态能力并且抛弃了 Java 那套 servlet 标准,这个其实就很有魄力,因为大家都知道要遵循标准,而真正的技术进步都来源于往往都是突破现有的标准从而诞生新的标准。后面因为这个项目,...
2022-05-04 12:02:03
176
原创 2021年教你尝鲜 MLSQL 的N种方式
注册就可以体验如果你是个急性子,那么你可以通过在 mlsql.tech 上注册一个账户就可以体验了。这篇文章里有一个快速体验的章节,教大家怎么注册。我只想自己笔记本上玩那么桌面版非常适合你。参考这里的README下载一个vscode 然后在离线安装 mlsql-lang 插件就可以了。PS: vscode 商店对插件大小有限制,从商店安装的话还是需要自己手动安装一些依赖,所以反倒离线install一个vsix更方便。我想和小伙伴一起玩玩桌面版一般自己玩。如果想在云上或者测试环境搭建一个单机引擎,
2021-11-04 16:17:10
1013
原创 如何将Python算法模型注册成Spark UDF函数实现全景模型部署
本文作者来自MLSQL社区 & Kyligence 机器学习平台工程师 Andie Huang背景 Background对于算法业务团队来说,将离线数据训练好的模型部署成服务的业务场景是非常常见的。很多算法工程师都会遇到需要花费很多经历在模型部署工程上的问题。一般地,基于 Python 训练的AI算法模型,想要把算法部署成服务,会用到如下方法:比如基于 Tornado 框架把一个 python 模型部署成 RestfulAPI 的服务。或者如果是 Tensorflow 训练的模型可以用.
2021-11-02 17:44:10
3759
1
原创 可编程的SQL是什么样的?
背景如果你使用传统编程语言,比如Python,那么恭喜你,你可能需要解决大部分你不需要解决的问题,用Python你相当于拿到了零部件,而不是一辆能跑的汽车。你花了大量时间去组装汽车,而不是去操控汽车去抵达自己的目的地。大部分非计算机专业的同学核心要解决的是数据操作问题,无论你是摆地摊,开餐馆,或者在办公室做个小职员,在政府机构做工作,你都需要基本的数据处理能力,这本质上是信息处理能力。 但是在操作数据前,你必须要学习诸如变量,函数,线程,分布式等等各种仅仅和语言自身相关的特性,这就变得很没有必要了。操作数
2021-10-27 16:51:03
6293
6
转载 MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI
近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成功举办,此次峰会特设「开源有道」分论坛,邀请了来自 Apache Kylin,...
2021-08-26 10:06:41
651
原创 从MLSQL性能设计到对架构师的重新思考
五年前,我会认为,架构仅仅是针对一个可大可小的问题,把流程设计好,然后往里面填充合适的组件,从而最终解决这个问题。在这个过程中,区分架构师是否资深主要是在设计过程中对可扩展性,可维护性,以及成本权衡的把控能力。现在,我觉得架构不应该仅仅是这样的。真正的架构,它会是一个自上而下的思考模式,首先需要对问题本质的进行解析,进而进行抽象。最高层的抽象可能类似,”解决复杂的问题的办法一定是简单的“东西,这是一句有价值,但基本没法实操的话,是水货,但却可以作为自己在接下来设计的一个指导原则,一个准绳,一个衡量现在的
2021-07-24 13:55:24
501
1
转载 15 - MLSQL on k8s(3) - MLSQL on k8s
有了前两篇的铺垫,主角MLSQL终于上场了,在部署MLSQL on k8s,笔者参考了这三篇文章(和作者的帮助):http://docs.mlsql.tech/mlsql-stack/qa...
2021-02-25 09:10:12
235
转载 14 - MLSQL on k8s(2) - Spark on k8s
Spark on k8s,可能都有听说,可是笔者从网上没有找到一个可以顺利运行的例子。笔者也是走了几个弯路才顺利跑通的。下面笔者将基于spark native方式部署,分别讲解如下三种模式...
2021-02-20 12:21:27
449
原创 MLSQL Stack的体验站点终于来啦
MLSQL的体验站点终于来了,点这里 MLSQL Console.另外有Bug或者建议的,可以在Issues提问题一起探讨哦。站点最新更新Excel 支持 (2020-09-01)增加excel插件支持,支持在MLSQL中使用python处理excel. 上传你的excel尝试下吧。 结合Python读取Excel或者使用如下方式加载excel:load excel.`/tmp/upl...
2020-09-02 16:34:40
16
原创 SQL智能代码补全引擎【sql-code-intelligence】介绍
sql-code-intelligence 支持标准的Spark SQL补全,也支持MLSQL语法补全。其基本交互方式是,前端将当前用户正在书写的SQL脚本以及当前的光标所在的行列号传递给sql-code-intelligence,sql-code-intelligence会给出一串提示列表。标准Spark SQL 提示支持譬如当前用户书写的SQL如下,鼠标在第三行第十列image...
2020-06-15 18:39:42
23
原创 Spark 资源自动清理
Spark运行一次SQL,根据SQL的具体执行情况,可能会产生很多垃圾。譬如你可以很容易观察到的就是在Spark UI上跑完SQL后会有Storage Memory的占用:这个应该是SQ...
2020-05-15 16:41:22
1093
原创 Java G1垃圾回收导读
因为已经有非常好的文章介绍G1了,所以这篇文章只会提供一些我觉得特别好的文章信息,帮助大家从茫茫的信息海洋里节省时间。祝威廉如何看懂G1的GC日志非常重要,因为我们需要通过日志进一步了...
2020-05-14 17:56:23
260
1
原创 Spark GC 调优文章推荐
为什么我们需要调GC如果是在以前,ETL为王的年代,我们其实大可不必去调试,使用默认的 Parallel GC就可以了。但是随着发展,实时流计算以及AdHoc查询,对JVM的要求:高吞吐...
2020-05-12 14:32:48
306
原创 Spark 大/小文件读取优化
问题描述使用Spark写复杂SQL时,我们经常会遇到两个尴尬的情况:表里的单个文件都很大,而且因为record比较小,所以单个文件的record数量巨大。表里每个分区都有成百上千个小文件...
2020-05-08 12:56:31
1949
原创 SQL复用告别拷贝黏贴!兄dei, 来看看
本文将介绍如何通过MLSQL将一条又长又复杂(子查询,Join以及重复片段满天飞)的SQL简化成萌新都能看懂的SQL语句。案例来了下面一条SQL是从网上随便找的,大家可以看到,这条SQL结构上从结构上具备复杂化的潜质,子查询,Join等用的不亦乐乎。然而和真实的业务场景里的SQL复杂度比前来,这条SQL的复杂度简直是孙子级别的。image如果我们仔细思考下,我们至少发现两点:...
2020-05-07 10:32:40
14
原创 认识 Delta Lake
百花齐放的大数据生态17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在...
2020-05-06 13:32:55
536
原创 给大家引荐下我的开源项目【们】
前言从开始工作,我一直会问自己这么两个问题:1. 我有足够多的工具提升自己效率么?2. 我有足够好的平台去提升团队效率么?效率在我看来是至关重要的。关于我对效率的理解,还可以看看我这篇文...
2020-05-06 13:32:55
424
转载 数据团队规划布局感悟(三)
0x00 前言自己也没想到马上会有第三篇了。今天重点讲讲我对感悟(一)中提及的“解决方案设计团队”的看法。其实这个名字是我瞎起的,对应的是大家熟知的“算法团队”或者“机器学习团队”。0x...
2020-05-05 12:17:04
329
转载 可以【移动数据】而不是【移动计算】了
0x00 前言在进入本文的主题之前,先讲两件事。第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门...
2020-05-02 18:20:29
412
原创 SQL思维 VS 编程思维(重制版)
昨天看了一篇文章,里面有段话讲的比较务实:开发效率,从平台发展的各阶段实践中,我们发现,对于一个统计任务/算法任务/风控任务,如果采用传统的编程思维方式去实现,那么只能通过堆开发人员,去...
2020-04-28 13:24:15
728
1
原创 【抖音短文】痛点不能驱动一切,效率驱动才是
什么都等到痛了才去做,要你何用。在我们的内心世界,我们认为痛点驱动是一个理所当然的事情。只有有了痛,我们才有动力去解决它。奈何能感受到痛点的是人,而人基因里就包含了一件事,就是会忍受,...
2020-04-25 10:35:19
388
原创 【一站地铁短文】该不该追新的技术名词(概念)
先抛出结论(毕竟我们号称一站地铁短文):无论什么新技术名词(概念),不要去抵触,试着去了解,最好是能从其中学习到一些好的东西。名词(概念)本身并没有那么重要。和具体技术不一样,技术名词(...
2020-04-24 09:00:30
235
原创 【短文】为什么要关注技术趋势
很多对技术持有保守心态的人,总是希望某项技术烂大街以后再买入,但是技术本身并不是凭空而来的,而是实际的需求驱动的。这意味着,当它烂大街的时候,其实可能已经不能支撑现阶段公司业务的诉求了。...
2020-04-23 12:53:41
355
原创 【短文】技术调研尽可能不要交给新手
技术调研是个技术上很有【挑战】,同时也是一个比较【艰苦】,也考验一个人的技术【品味】的任务。所以让一个新手去调研,这明显属于为难新手,并且大概率会得到一个不甚“真实”的调研结果。当然了,...
2020-04-23 12:53:41
229
原创 2019年技术思维套路总结
前言19年,在一些技术思维上形成了几点套路,不过目前还没有成体系,所以想到啥就写啥了,算是一个记录,避免自己以后忘了。技术调研不要交给新手技术调研是个技术上很有【挑战】,同时也是一个比较...
2019-12-31 12:56:31
751
转载 数据湖Delta Lake 深入解析&专栏介绍
最近在知乎新开了一个专栏,<数据湖Delta Lake 深入解析>,具体链接请大家查看原文链接啦。这个系列不讲API用法(毕竟官网的Docs已经足够),不讲源码(枯燥并且影响...
2019-10-23 10:15:01
860
原创 Spark的常见困惑(1)
前言已经很少写Spark的文章了,但是因为以前写的挺多的,所以还是有很多人会和我交流Spark相关的内容。这篇文章我会把我经常被问到的几个问题整理下,也可以避免以后反复讲,因为可以直接把...
2019-10-12 11:53:57
324
原创 大数据计算引擎们是该有个统一的标准了,闲聊Linkis
大数据中台建设其实已经如火如荼了。我们在这里也不去纠结是中台还是平台,总之形态就是登录web后就可以使用各种大数据引擎进行数据探索,分析,机器学习等工作,大家可以在上面写SQL,Pyth...
2019-10-12 11:53:57
655
原创 MLSQL 内置Delta数据湖以及Compaction功能介绍
前言之前写过一篇文章 Delta的真正用处和价值,你可知道,该项目开源的那天我就集到MLSQL了。不过当时只是尝鲜性质,主要原因是因为我一直觉得delta缺了Compaction功能。很多公司其实都有小文件的困扰,而Delta这个问题会更严重。不过近期Delta团队应该就会发布新版本了,届时有可能相关的功能都会补上。不过MLSQL现在也自己实现了一个Compaction的功能,并且对delta做...
2019-06-06 13:16:48
13
原创 MLSQL Stack 让流调试更加简单
前言有一位同学正在调研MLSQL Stack对流的支持。然后说了流调试其实挺困难的。经过实践,希望实现如下三点:能随时查看最新固定条数的Kafka数据调试结果(sink)能打印在web控制台流程序能自动推测json schema(现在spark是不行的)实现这三个点之后,我发现调试确实就变得简单很多了。流程首先我新建了一个kaf_write.mlsql,里面方便我往Kafka里写...
2019-06-03 17:39:02
10
原创 try.mlsql.tech 上线,快来体验
前言好友借了一台服务器给我用,2核4G, 虽然配置有点低,但是已经超开心了,一直希望能搭建一个能运行一些简单脚本的服务,这样用户就不需要自己搭建了,但一直碍于现在服务器对个人而言还是相当贵,现在终于实现了。我们也支持一键安装在你的电脑上哦直接在终端运行:bash <(curl http://download.mlsql.tech/scripts/run-all.sh)下面是相关信息...
2019-05-30 18:30:52
12
原创 超小企业的大数据与AI之路该怎么走
今天正好和以前的一个老朋友通了个电话,他在创业,其实做的还可以,业务发展的也不错。但是做互联网服务,尤其是内容服务,不可避免的需要譬如推荐,搜索,精准推送等功能,而这几个功能,又比较依赖大数据和AI相关的体系。举个最简单的例子,获取用户访问行为,然后做个协同,然后推荐时需要把用户看过的内容过滤掉,就这个可能就需要Flume,Kafka,流式引擎等,更别提然后还要归档日志(或者进入数仓)了。我以前就...
2019-05-07 15:12:00
1551
4
原创 Delta的真正用处和价值,你可知道
前言应该说,Delta是最近几年Databricks开源的最有价值的东西。Databricks这几年对外致力于AI,对内则努力给客户提供一站式分析处理平台。这个一站式的核心是,内核包含了流和批的真正统一,那什么才是真正的流和批的统一呢?引擎内核统一API统一数据存储统一其中1,2两点Spark开源项目已经完成,而第三个,其实一直是没有一个好的...
2019-04-30 12:37:00
645
原创 台北行二三事:不要让疲劳被掩埋
今天是到台北第三天,也是第二次来台北了。台北是个很舒适,很适合生活的城市。这两天来基本就是以酒店为中心,方圆一公里活动,主要有三个活动内容:睡觉找食写代码,写文章台北美食里,家庭作坊式的...
2019-04-29 13:16:28
202
hibernate 关联保存 的困惑
2009-10-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人