布客社区及饱和式翻译计划 Q&A

彭亡

于 2024-08-14 04:45:13 发布

阅读量24

点赞数

Q1：布客社区的布客是什么意思？

布客是【布道·开源·智能·极客】的缩写。意思是我们是个开源社区，布道人工智能原理和极客思想。

我感觉程序员不都是极客，可能早期那一批是这样，但是现在完全不是了，思想保守得很。我们需要布道这种思想，一定程度上变回之前的样子。

Q2：翻译这么多教程有什么意义？

A1：如果你现在，在AIGC大爆发之后问我这个问题，我只想告诉你们，翻译是 AIGC 中一种重要的形式，输出稳定，没有幻觉，比什么扩写仿写之类的好多了。

当然我也尝试过很多其他的AIGC形式，比如源码解析、课程笔记之类的，但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。

Q3：现在已经有这么多教程了，还需要继续翻译嘛？

其实 2017 年之前，中文互联网上能看的技术教程是很少的。我记得唯一能看的就是 W3School，还有个菜鸟教程。现在你可以挑挑拣拣说它过时了或者错误太多，或者怎么怎么样，但是在当年，它就是唯一能看的。并且，它里面的教程都是基本的编程语言（Java、Python 之类）和基本的前端知识（HTML、CSS、JS、AJAX）。像 Docker、Redis 这种互联网基础设施，和 NumPy、PyTorch 这种数据科学人工智能框架的教程，根本没有。

在此之后，神经机器翻译（NMT）迅速发展，使我们能够大批量翻译这种教程。其实我们并不会因为翻译了这一大堆而止步，因为这些教程也跟 W3School 一样，有过时的问题，而技术是不断发展的。也许未来技术知识传播的形式从图文逐渐转向视频，我们也加大这种自动视频笔记创作内容的比例。但有些技术知识应该还是图文形式，我们也会一直保留这个计划。

Q4：这么多教程会有人看嘛？

技术教程和小说不一样，并不需要人从头读到尾。当你遇到了一个难以解决的技术问题，你在文档库里面检索，找到了一篇文章能解决你的问题，那就是有价值的。只不过，我们不知道未来会出现什么问题，以及文档库里面的哪篇文章能够解决它，我们就要不停扩充文档库。

这些教程本来是部署在我们社区自己的网站的，但后来发现没多少人看，就发布在了CSDN、博客园、阿里云、腾讯云社区，以及知乎、51CTO上。程序员习惯用搜索引擎来搜索技术问题，这样能够尽可能覆盖到所有搜索引擎，在需要解决技术问题的时候，被搜索到的概率也会增大。

Q5：如果大家都看英文原版教程，会不会更好？

这就相当于为何要给代码加注释一样。如果我把代码里面的注释全部删掉，你肯定也看得懂，就是需要花力气先猜测代码是做什么的，这相当于在心里给代码加注释。但如果代码是带有注释的，那么这个过程就不需要，我们可以直接读注释，并且会更快。

如果一个代码没有注释，我们第一次阅读的时候肯定会给它加注释，而不是每次阅读都加注释然后删掉。如果一个项目不允许你写任何注释，你肯定会疯掉。英文原版教程就相当于不允许加任何注释的项目。

Q6：用上自动化手段之后，会不会让技术博客失去意义？

我再重复一遍，我们正在积累一个技术文档库，它包含我们未来能用的上的所有知识，并且在我们需要的时候快速定位。技术博客只是文档库的一个副产品，它的作用是允许搜索引擎检索到，顺便赚一点人气。如果哪一天我们有了直接提交给搜索引擎的更好方式，我们也不会写什么博客了。就目前这个极阶段，写博客这件事情本身是没有意义的，应该用自动化来干掉。

很多人总喜欢用固定的动作，也就是仪式感感动自己，结果屁用没有。我们应该关注结果本身的效果。同时不要妄自菲薄，你干出一些动静，对技术圈就必然有一点影响，注意不包括只说不做的看客们。

Q7：在翻译教程过程中有没有什么经验教训？

首先就是不要低估社区成员的惰性。即使你有一个一万人的社区，那么绝大多数人肯定是聊天吹水，不会有任何贡献。在愿意贡献的那几十个人里面，绝大多数都会摸鱼。就是本来一天空闲时间能完成的翻译或者校对任务，绝对会给你拖到一个月。这就是公地悲剧，因为社区是公益性质的，表面上看不干也没有什么影响，但是大家最后都没有好的教程看。

我的建议是能自动化就自动化，这样一是避免了贡献者摸鱼的等待时间，二是避免了和贡献者扯皮的时间。我们程序员时间都非常宝贵，这个项目又是公益项目，当然是怎么高效怎么来。

更重要的是要钻研和掌握整个任务的底层驱动技术，在这个例子里面是神经机器翻译。一开始机器翻译兴起的时候还只能翻译纯文本，根本搞不好具有复杂格式的 Markdown 和 HTML。我们也没有联系其它技术力量来解决这个问题。但是一个翻译模型也就几百MB（bert-base量级），用最烂的1080TI显卡就可以训练，用CPU就可以推理。我完全可以抽出一年来去研究和实现自己的模型。但可惜的是，我没有这么搞，而是开展活动让成员给文档排版，最后效果非常差，浪费不少时间。

Q8：未来会不会将已有的 AIGC 手段用于其它领域的内容？

当然会，作为一个技术社区，能够持续产出作品就是最大的宣传手段。我们坚信工作是一时的，娱乐是永久的，计划翻译一些小说或者漫画，这种一般娱乐向的东西。现在技术成熟了，我们可以飞速解放生产力，避免投入太多时间或者精力，达到一样甚至更好的效果。

但是小说基本都有人翻译，多亏了各大汉化组的辛勤劳作，基本上Web版发布之后隔几个小时就有了，这一点和技术教程完全不一样。漫画的翻译流程和文本完全不一样，需要对话框识别、OCR、翻译、回填。这个流程要比文本翻译复杂得多。我们有漫画翻译的计划，但需要一段时间来准备工具。

Q9：为什么要做其他方向呢？

大概19~20年左右，我们的翻译活动进展十分缓慢，成员参与度非常低。当时又没有 ChatGPT这样的生产力解放工具用于翻译，为了社区的持续发展，只能看看有没有其他能搞的东西。我们最终确定了三个：量化交易、玄学、两性。这当时都是社区成员的迫切需求。

Q10：这三个当下里面做的最好的是哪个，做的最差的是哪个？

我认为做的最好的是玄学方向。因为玄学这个东西是位于时间之外的，它的所有道理都是五千年前五千年后，哪个时代都适用。所以我们并不需要有多着急，只要用我们的 AIGC 手段持续做视频布道就可以了。顺便我们还大量备份资料，到 ZLIB、libgen 等等，解决了隔壁某某之光被人拆群丢失所有资料的问题。这是个长期计划，可能未来二十年三十年都会一直做，反正成本很低但功德无量，直到灵性时代真正到来。

做的最不好的是量化交易。由于合伙人之间的扯皮和少部分贡献者的不作为，本来我们能够做很多实验，分享很多教程。搭起来一个还能凑合用的框架，实现入门水平的盈利并缓解社区资金问题，但这些都没做到。真的很遗憾。

Q11：那剩下的两性方向呢？

我觉得这个是决策错误吧，不属于量化那种决策正确但没有执行的问题。两性本质不仅仅是线上活动，还包括大量线下互动，否则就跟现在的虚拟恋人没啥区别了。作为一个人力密集型的项目，我们公益性的开源组织无法承担，就算是收钱我们也没有时间。

而且国内目前的两性大环境很糟糕，条件根本不允许达到我们的情感自由的目标，除非去日本、泰国、香港这些地方。但我们都不是远程工作者，我们也没有条件搬去两性资源丰富的地方。最后这个计划就中止了。也许未来几年，人工智能把脑力工作解决掉，人们会愿意提供情绪价值，也就不需要我们做啥了，谁知道呢。

Q12：想要对入坑量化交易的程序员说些啥？

我觉得需要你不是 CURD 程序员，而是数据分析师或者算法研究员，都应该了解一下这个方向。我们程序员一天几个小时坐办公室，但不是每时每刻都有活干，有大量的空闲时间，与其摸鱼不如自己搞点东西。再者程序员随时随地都能接触电脑，下载个数据做个实验是轻而易举，比工地上的打灰佬方便太多了。

量化交易也没有什么神秘的，本质上需要抓取数据、清理数据、提特征（因子）、训练模型、回测，这完完全全是数据科学的一个子集。而且它是属于直接从市场赚钱，变现路径非常之短，不确定风险点非常的小。我们又拥有回测这一非常强大的手段来提前避免绝大多数的问题。

不要听那些负能量程序员，以及那些上了车就想关门的人瞎逼逼。它们就整天这个不行那个不行，难道大家最开始学编程，最开始学Web都是靠整天说NO，一个N一个O，就把技术学会的吗？对吧。要记住量化交易就是个BOSS，在人生的所有事情面前也不算是什么大BOSS，和所有游戏的BOSS一样，它再怎么厉害也只能失败一次，而你有无数次机会，只需要成功一次。