祝威廉
码龄14年
  • 983,094
    被访问
  • 299
    原创
  • 8,806
    排名
  • 1,175
    粉丝
  • 6
    铁粉
关注
提问 私信
  • 加入CSDN时间: 2008-08-20
博客简介:

allwefantasy的专栏

查看详细资料
  • 3
    领奖
    总分 237 当月 0
个人成就
  • 博客专家认证
  • 获得233次点赞
  • 内容获得707次评论
  • 获得400次收藏
创作历程
  • 3篇
    2022年
  • 7篇
    2021年
  • 13篇
    2020年
  • 42篇
    2019年
  • 38篇
    2018年
  • 50篇
    2017年
  • 109篇
    2016年
  • 20篇
    2015年
  • 4篇
    2013年
  • 4篇
    2012年
  • 3篇
    2011年
  • 3篇
    2010年
  • 18篇
    2009年
  • 13篇
    2008年
成就勋章
TA的专栏
  • Chrome
    1篇
  • 性能
    1篇
  • 浏览器
    1篇
  • firefox
    1篇
  • 评测
    1篇
  • Web开发
    2篇
  • 流水线
    1篇
  • Java SSH改进
    1篇
  • spark
    13篇
  • 思考
    6篇
  • 大数据
    4篇
  • yarn
    2篇
  • kafka
    1篇
  • es
    5篇
  • 创业
  • 12cd分享系列
    3篇
兴趣领域 设置
  • 大数据
    sparketl
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

创新不是靠痛点,而是靠对效率的持续追求

什么都等到痛了才去做,要你何用在互联网行业做产品,亦或是创业给投资人讲故事,一个很核心的点就是要问自己或者告诉对方,我的产品击中了什么痛点?似乎一切都是靠痛点驱动的。但我认为这是浮于表面的。创新不是靠痛点,而是靠对效率的持续追求来提升的。在我们的内心世界,我们认为痛点驱动是一个理所当然的事情。只有有了痛,我们才有动力去解决它。奈何能感受到痛的是人,而人基因里就包含了一件事...
原创
发布博客 2022.05.17 ·
13 阅读 ·
0 点赞 ·
0 评论

增长黑客 - 开源项目增长利器

2012 年我开源了自己的第一个项目 https://github.com/allwefantasy/ServiceFramework ,这个项目并不成功,但对我个人的价值还是比较大的,一直作为我工具箱用到现在。从 16 年开始,我全身心的投入到 [Byzer](https://github.com/byzer-org) 项目, 至今已有 6 年。衡量社区增长的指标其实有...
原创
发布博客 2022.05.06 ·
47 阅读 ·
1 点赞 ·
0 评论

创新者的孤独

我在刚入行的时候,经常看 JavaEye(现在的 Iteye)论坛,那个时候有个猛人开发了一个web框架 Douyu 在论坛里一炮走红。他通过改写 Java 编译器来实现很多原先实现不了的动态能力并且抛弃了 Java 那套 servlet 标准,这个其实就很有魄力,因为大家都知道要遵循标准,而真正的技术进步都来源于往往都是突破现有的标准从而诞生新的标准。后面因为这个项目,...
原创
发布博客 2022.05.04 ·
17 阅读 ·
0 点赞 ·
0 评论

上次我表达了一个观点。在大数据和AI领域,编程语言方面,现状依然是从老的语言堆里,去找一个最适合当前需求的语言。比如大数据我们发现以前关系库查询语言SQL不错,所以我们找出来了进行可扩展。AI领域,发现Python易用性不错,所以用了Python。 但随着时间推演,他们一定是越发的不能满足,这个时候必然需要有新一个重新设计的语言才能较好的满足新的需求。 其次,大数据和AI按我之前说的总分总理论,必然是要合并的。大数据只会是AI的一部分。就像有位朋友说,现在大数据在AI里其实就是一个Dataset概念,大数据中的”大“字迟早会弱化,甚至消失在AI体系中。所以语言层面会出现一统。但是很多人认为会是Python语言,我觉得不会。第一是Python门槛依然很高,而实际上他的成功其实来自于他已经是编程语言里比较简单的了,这表明,只要有比他更简单的编程语言,而且能满足需求,那么一定会取代亦或是融合Python。第二是python对数据处理的优势依然不大(相比SQL),而这个是Python语言的自身限制导致的。 第三个是,在大数据/AI中,你会发现对时间的限制条件放宽了,不再需要微妙纳秒的响应的时间,毫秒,秒,分钟甚至小时都是有可能的。所以 1) 可以放心的纯解释执行 2)可以放心的分布式执行 3)通过损失响应速度来提升语言的易用性。

发布动态 2021.11.14

很多同学会认为鱼与熊掌难以兼得,各个系统应该各有优势,难以覆盖全了。但这本质上还是因为技术发展所处的阶段限制的。实际上,看技术规律,都是总分总结构的。一开始MPP无线风光,后面Batch(SQL on Hadoop)架构崛起,现在随着AdHoc查询越来越重要,MPP又开始有所回归,到最后,必然是Batch/MPP越来越难以安辨雌雄,走向融合。同理OLTP,OLAP ,他们分分合合,但从长远看,必然会会在一个系统里实现它,实现融合,至少现在证明技术上是可行的,比如THAP系统TiDB,以及相对来说T弱一点的Hologres等。

发布动态 2021.11.09

其实最近有一个感触非常深,就是一个项目越来越多语言化。以前我们泾渭分明的说,诶,这个引擎是Java开发的,那个是C++开发的。现在则不是这样了。而且还分成两个层次:一个是引擎自身实现需要用到多语言,第二个是为了照顾使用层面。Spark是两个层面都要兼顾到,而比如很多深度学习框架,则主要是为了照顾使用层面,用Python包一层方便使用。 那这个趋势有什么价值呢?我认为有三点: 1. 多语言意味着需要数据在不同语言中交互,可以是进程内,也可以进程间,这期间需要大批量数据交换,这个时候一致的,可以减少序列化反序列化数据交互格式就变得很必要了。这也是Arrow诞生的原因,也是他发展最大驱动力。而随着他的使用越来越广泛,越来越多的项目会将其作为标准数据交换格式。 2. 多语言意味着一个系统在启动后,有各种进程。比如Spark里同时有Python VM, JVM 等。如何统一管理这些复杂的进程,尤其是他们各自有各自的环境需求和依赖,变得很重要,其次,一般而言都会有个manager语言,比如在Spark里是Java管Python,那这里其实就给业务层带来了很多管理的overhead。基于K8s固然能解决一部分,但我认为最有价值的底座还是Ray 3. 还有一个就是辅助配套工具要变革。第一个是,IDE要变革了,Intellij 现在是对混合项目的支持还非常的不好,相比较而言,轻量编辑器 Visual Code则可能能抓住这波机遇。 另外,Make这种工具会再次回归,因为他和语言无关。在多语言项目里,make会成为入口。

发布动态 2021.11.09

很多企业都在尝试给spark去实现native runtime,做这件事的好处不应该只从性能上考虑。它能同时实现三个目标: 第一个,借助这次机会,将native engine实现为MPP架构,夺回Adhoc查询 实现最强最全面引擎的能力 第二个 给未来适配新硬件提供口子 架构上也可以更从容 第三个 也给Ray提供了新的机会 他们很难重新实现spark,但还是有机会通过其自身C++ API 给spark,presto 提供一个统一native runtime (类似velox正在做的事情)

发布动态 2021.11.09

2021年教你尝鲜 MLSQL 的N种方式

注册就可以体验如果你是个急性子,那么你可以通过在 mlsql.tech 上注册一个账户就可以体验了。这篇文章里有一个快速体验的章节,教大家怎么注册。我只想自己笔记本上玩那么桌面版非常适合你。参考这里的README下载一个vscode 然后在离线安装 mlsql-lang 插件就可以了。PS: vscode 商店对插件大小有限制,从商店安装的话还是需要自己手动安装一些依赖,所以反倒离线install一个vsix更方便。我想和小伙伴一起玩玩桌面版一般自己玩。如果想在云上或者测试环境搭建一个单机引擎,
原创
发布博客 2021.11.04 ·
867 阅读 ·
1 点赞 ·
0 评论

如何将Python算法模型注册成Spark UDF函数实现全景模型部署

本文作者来自MLSQL社区 & Kyligence 机器学习平台工程师 Andie Huang背景 Background对于算法业务团队来说,将离线数据训练好的模型部署成服务的业务场景是非常常见的。很多算法工程师都会遇到需要花费很多经历在模型部署工程上的问题。一般地,基于 Python 训练的AI算法模型,想要把算法部署成服务,会用到如下方法:比如基于 Tornado 框架把一个 python 模型部署成 RestfulAPI 的服务。或者如果是 Tensorflow 训练的模型可以用.
原创
发布博客 2021.11.02 ·
3309 阅读 ·
4 点赞 ·
1 评论

MLSQL官网越来越好看了[耶] https://mlsql.tech/home

发布动态 2021.11.02

对于联邦学习,考虑下,如果server和clients 自身也都是分布式的,同时都实现了很强的故障恢复能力,是不是会更有意思? 期待有小伙伴们能够一起验证使用MLSQL实现联邦学习 。之前初步想了下 还是很容易实现的。另外,跨云的联邦学习中,每个节点的存储(云)变的非常稳定,加上弹性的资源以及基础设施(如K8S),这使得server的故障恢复也会更加容易。server自身是分布式的话,可以使得其自身得到了很强的横向扩展能力,尤其是算力。总之,加了云之后,我觉得很多事情可以变的更加有趣。

发布动态 2021.10.31

风景长宜放眼量。任何事情拉长时间一点看,就不容易陷入局部的混沌和焦虑。昨天和同事探讨了很多有意思的观点,我都很认同。譬如生活和工作的平衡,如果你强行追求每天的完美平衡,终究容易两者皆失,亦或是难以达到目标而陷入心中的纠结,但我们拉长时间,在一段时间内获得平衡才可能是最佳利益所在。同样的,你可能做一项你认为极度有意义的事,但中间出现诸如资源不足等导致事情进展慢,不妨也把时间拉长一点,每个区间进度有块有慢,或许下个阶段我们获得了超量的资源。我们追求最终一致性,也就是最终的目标是不是在合适的时间达到,这种思维也让我们在面对困难和挫折更有积极的心态。总之,拉长一点看,事情在变化和发展,多抓住和利用好的变化。

发布动态 2021.10.29

可编程的SQL是什么样的?

背景如果你使用传统编程语言,比如Python,那么恭喜你,你可能需要解决大部分你不需要解决的问题,用Python你相当于拿到了零部件,而不是一辆能跑的汽车。你花了大量时间去组装汽车,而不是去操控汽车去抵达自己的目的地。大部分非计算机专业的同学核心要解决的是数据操作问题,无论你是摆地摊,开餐馆,或者在办公室做个小职员,在政府机构做工作,你都需要基本的数据处理能力,这本质上是信息处理能力。 但是在操作数据前,你必须要学习诸如变量,函数,线程,分布式等等各种仅仅和语言自身相关的特性,这就变得很没有必要了。操作数
原创
发布博客 2021.10.27 ·
5951 阅读 ·
13 点赞 ·
6 评论

MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI

近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成功举办,此次峰会特设「开源有道」分论坛,邀请了来自 Apache Kylin,...
转载
发布博客 2021.08.26 ·
244 阅读 ·
0 点赞 ·
0 评论

从MLSQL性能设计到对架构师的重新思考

五年前,我会认为,架构仅仅是针对一个可大可小的问题,把流程设计好,然后往里面填充合适的组件,从而最终解决这个问题。在这个过程中,区分架构师是否资深主要是在设计过程中对可扩展性,可维护性,以及成本权衡的把控能力。现在,我觉得架构不应该仅仅是这样的。真正的架构,它会是一个自上而下的思考模式,首先需要对问题本质的进行解析,进而进行抽象。最高层的抽象可能类似,”解决复杂的问题的办法一定是简单的“东西,这是一句有价值,但基本没法实操的话,是水货,但却可以作为自己在接下来设计的一个指导原则,一个准绳,一个衡量现在的
原创
发布博客 2021.07.24 ·
410 阅读 ·
2 点赞 ·
1 评论

从MLSQL性能设计思考到对架构师的重新思考

五年前,我会认为,架构仅仅是针对一个可大可小的问题,把流程设计好,然后往里面填充合适的组件,从而最终解决这个问题。在这个过程中,区分架构师是否资深主要是在设计过程中对可扩展性,可维护性,以及成本权衡的把控能力。现在,我觉得架构不应该仅仅是这样的。真正的架构,它会是一个自上而下的思考模式,首先需要对问题本质的进行解析,进而进行抽象。最高层的抽象可能类似,”解决复杂的问题的办法一定是简单的“东西,这是一句有价值,但基本没法实操的话,是水货,但却可以作为自己在接下来设计的一个指导原则,一个准绳,一个衡量现
原创
发布博客 2021.07.24 ·
1 阅读 ·
0 点赞 ·
0 评论

15 - MLSQL on k8s(3) - MLSQL on k8s

有了前两篇的铺垫,主角MLSQL终于上场了,在部署MLSQL on k8s,笔者参考了这三篇文章(和作者的帮助):http://docs.mlsql.tech/mlsql-stack/qa...
转载
发布博客 2021.02.25 ·
155 阅读 ·
0 点赞 ·
0 评论

14 - MLSQL on k8s(2) - Spark on k8s

Spark on k8s,可能都有听说,可是笔者从网上没有找到一个可以顺利运行的例子。笔者也是走了几个弯路才顺利跑通的。下面笔者将基于spark native方式部署,分别讲解如下三种模式...
转载
发布博客 2021.02.20 ·
219 阅读 ·
1 点赞 ·
0 评论

Spark 资源自动清理

Spark运行一次SQL,根据SQL的具体执行情况,可能会产生很多垃圾。譬如你可以很容易观察到的就是在Spark UI上跑完SQL后会有Storage Memory的占用:这个应该是SQ...
原创
发布博客 2020.05.15 ·
800 阅读 ·
1 点赞 ·
0 评论

Java G1垃圾回收导读

因为已经有非常好的文章介绍G1了,所以这篇文章只会提供一些我觉得特别好的文章信息,帮助大家从茫茫的信息海洋里节省时间。祝威廉如何看懂G1的GC日志非常重要,因为我们需要通过日志进一步了...
原创
发布博客 2020.05.14 ·
208 阅读 ·
1 点赞 ·
1 评论
加载更多