Q1:布客社区的布客是什么意思?

布客是【布道·开源·智能·极客】的缩写。意思是我们是个开源社区,布道人工智能原理和极客思想。

我感觉程序员不都是极客,可能早期那一批是这样,但是现在完全不是了,思想保守得很。我们需要布道这种思想,一定程度上变回之前的样子。

Q2:翻译这么多教程有什么意义?

A1:如果你现在,在AIGC大爆发之后问我这个问题,我只想告诉你们,翻译是 AIGC 中一种重要的形式,输出稳定,没有幻觉,比什么扩写仿写之类的好多了。

当然我也尝试过很多其他的AIGC形式,比如源码解析、课程笔记之类的,但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。

Q3:现在已经有这么多教程了,还需要继续翻译嘛?

其实 2017 年之前,中文互联网上能看的技术教程是很少的。我记得唯一能看的就是 W3School,还有个菜鸟教程。现在你可以挑挑拣拣说它过时了或者错误太多,或者怎么怎么样,但是在当年,它就是唯一能看的。并且,它里面的教程都是基本的编程语言(Java、Python 之类)和基本的前端知识(HTML、CSS、JS、AJAX)。像 Docker、Redis 这种互联网基础设施,和 NumPy、PyTorch 这种数据科学人工智能框架的教程,根本没有。

在此之后,神经机器翻译(NMT)迅速发展,使我们能够大批量翻译这种教程。其实我们并不会因为翻译了这一大堆而止步,因为这些教程也跟 W3School 一样,有过时的问题,而技术是不断发展的。也许未来技术知识传播的形式从图文逐渐转向视频,我们也加大这种自动视频笔记创作内容的比例。但有些技术知识应该还是图文形式,我们也会一直保留这个计划。

Q4:这么多教程会有人看嘛?

技术教程和小说不一样,并不需要人从头读到尾。当你遇到了一个难以解决的技术问题,你在文档库里面检索,找到了一篇文章能解决你的问题,那就是有价值的。只不过,我们不知道未来会出现什么问题,以及文档库里面的哪篇文章能够解决它,我们就要不停扩充文档库。

这些教程本来是部署在我们社区自己的网站的,但后来发现没多少人看,就发布在了CSDN、博客园、阿里云、腾讯云社区,以及知乎、51CTO上。程序员习惯用搜索引擎来搜索技术问题,这样能够尽可能覆盖到所有搜索引擎,在需要解决技术问题的时候,被搜索到的概率也会增大。

Q5:如果大家都看英文原版教程,会不会更好?

这就相当于为何要给代码加注释一样。如果我把代码里面的注释全部删掉,你肯定也看得懂,就是需要花力气先猜测代码是做什么的,这相当于在心里给代码加注释。但如果代码是带有注释的,那么这个过程就不需要,我们可以直接读注释,并且会更快。

如果一个代码没有注释,我们第一次阅读的时候肯定会给它加注释,而不是每次阅读都加注释然后删掉。如果一个项目不允许你写任何注释,你肯定会疯掉。英文原版教程就相当于不允许加任何注释的项目。

Q6:用上自动化手段之后,会不会让技术博客失去意义?

我再重复一遍,我们正在积累一个技术文档库,它包含我们未来能用的上的所有知识,并且在我们需要的时候快速定位。技术博客只是文档库的一个副产品,它的作用是允许搜索引擎检索到,顺便赚一点人气。如果哪一天我们有了直接提交给搜索引擎的更好方式,我们也不会写什么博客了。就目前这个极阶段,写博客这件事情本身是没有意义的,应该用自动化来干掉。

很多人总喜欢用固定的动作,也就是仪式感感动自己,结果屁用没有。我们应该关注结果本身的效果。同时不要妄自菲薄,你干出一些动静,对技术圈就必然有一点影响,注意不包括只说不做的看客们。

Q7:在翻译教程过程中有没有什么经验教训?

首先就是不要低估社区成员的惰性。即使你有一个一万人的社区,那么绝大多数人肯定是聊天吹水,不会有任何贡献。在愿意贡献的那几十个人里面,绝大多数都会摸鱼。就是本来一天空闲时间能完成的翻译或者校对任务,绝对会给你拖到一个月。这就是公地悲剧,因为社区是公益性质的,表面上看不干也没有什么影响,但是大家最后都没有好的教程看。

我的建议是能自动化就自动化,这样一是避免了贡献者摸鱼的等待时间,二是避免了和贡献者扯皮的时间。我们程序员时间都非常宝贵,这个项目又是公益项目,当然是怎么高效怎么来。

更重要的是要钻研和掌握整个任务的底层驱动技术,在这个例子里面是神经机器翻译。一开始机器翻译兴起的时候还只能翻译纯文本,根本搞不好具有复杂格式的 Markdown 和 HTML。我们也没有联系其它技术力量来解决这个问题。但是一个翻译模型也就几百MB(bert-base量级),用最烂的1080TI显卡就可以训练,用CPU就可以推理。我完全可以抽出一年来去研究和实现自己的模型。但可惜的是,我没有这么搞,而是开展活动让成员给文档排版,最后效果非常差,浪费不少时间。

Q8:未来会不会将已有的 AIGC 手段用于其它领域的内容?

当然会,作为一个技术社区,能够持续产出作品就是最大的宣传手段。我们坚信工作是一时的,娱乐是永久的,计划翻译一些小说或者漫画,这种一般娱乐向的东西。现在技术成熟了,我们可以飞速解放生产力,避免投入太多时间或者精力,达到一样甚至更好的效果。

但是小说基本都有人翻译,多亏了各大汉化组的辛勤劳作,基本上Web版发布之后隔几个小时就有了,这一点和技术教程完全不一样。漫画的翻译流程和文本完全不一样,需要对话框识别、OCR、翻译、回填。这个流程要比文本翻译复杂得多。我们有漫画翻译的计划,但需要一段时间来准备工具。

Q9:为什么要做其他方向呢?

大概19~20年左右,我们的翻译活动进展十分缓慢,成员参与度非常低。当时又没有 ChatGPT这样的生产力解放工具用于翻译,为了社区的持续发展,只能看看有没有其他能搞的东西。我们最终确定了三个:量化交易、玄学、两性。这当时都是社区成员的迫切需求。

Q10:这三个当下里面做的最好的是哪个,做的最差的是哪个?

我认为做的最好的是玄学方向。因为玄学这个东西是位于时间之外的,它的所有道理都是五千年前五千年后,哪个时代都适用。所以我们并不需要有多着急,只要用我们的 AIGC 手段持续做视频布道就可以了。顺便我们还大量备份资料,到 ZLIB、libgen 等等,解决了隔壁某某之光被人拆群丢失所有资料的问题。这是个长期计划,可能未来二十年三十年都会一直做,反正成本很低但功德无量,直到灵性时代真正到来。

做的最不好的是量化交易。由于合伙人之间的扯皮和少部分贡献者的不作为,本来我们能够做很多实验,分享很多教程。搭起来一个还能凑合用的框架,实现入门水平的盈利并缓解社区资金问题,但这些都没做到。真的很遗憾。

Q11:那剩下的两性方向呢?

我觉得这个是决策错误吧,不属于量化那种决策正确但没有执行的问题。两性本质不仅仅是线上活动,还包括大量线下互动,否则就跟现在的虚拟恋人没啥区别了。作为一个人力密集型的项目,我们公益性的开源组织无法承担,就算是收钱我们也没有时间。

而且国内目前的两性大环境很糟糕,条件根本不允许达到我们的情感自由的目标,除非去日本、泰国、香港这些地方。但我们都不是远程工作者,我们也没有条件搬去两性资源丰富的地方。最后这个计划就中止了。也许未来几年,人工智能把脑力工作解决掉,人们会愿意提供情绪价值,也就不需要我们做啥了,谁知道呢。

Q12:想要对入坑量化交易的程序员说些啥?

我觉得需要你不是 CURD 程序员,而是数据分析师或者算法研究员,都应该了解一下这个方向。我们程序员一天几个小时坐办公室,但不是每时每刻都有活干,有大量的空闲时间,与其摸鱼不如自己搞点东西。再者程序员随时随地都能接触电脑,下载个数据做个实验是轻而易举,比工地上的打灰佬方便太多了。

量化交易也没有什么神秘的,本质上需要抓取数据、清理数据、提特征(因子)、训练模型、回测,这完完全全是数据科学的一个子集。而且它是属于直接从市场赚钱,变现路径非常之短,不确定风险点非常的小。我们又拥有回测这一非常强大的手段来提前避免绝大多数的问题。

不要听那些负能量程序员,以及那些上了车就想关门的人瞎逼逼。它们就整天这个不行那个不行,难道大家最开始学编程,最开始学Web都是靠整天说NO,一个N一个O,就把技术学会的吗?对吧。要记住量化交易就是个BOSS,在人生的所有事情面前也不算是什么大BOSS,和所有游戏的BOSS一样,它再怎么厉害也只能失败一次,而你有无数次机会,只需要成功一次。

Q13 除此之外还有什么建议给其它程序员吗?

前面说了很多,能自动化就自动化、积极拥抱 AI、不要完美主义、不要对别人期待过高之外,我觉得还要补充这么几点:

(1)不要总是有很高的道德感,你成功之前没有人会在意你做什么,你成功之后事情都做了,别人再怎么评判也没有意义了。如果在你做项目的时候,保守和成功你只能选一个,你可以仔细考虑一下,希望不要让自己后悔。

(2)保持乐观,因为心理学研究表明,乐观和创造力是绑定的。这世界的未来并不是预测出来的,而是创造出来的。如果你长期悲观,你只能干 CURD 这种简单重复性劳动,然后被 AI 取代。但如果保持乐观,就能想出来 AI 想不出来的新点子,进而驾驭 AI。