3年Java程序员转行做AI大模型，自学成功上岸

最新推荐文章于 2024-10-20 19:52:38 发布

张一闻

最新推荐文章于 2024-10-20 19:52:38 发布

阅读量126

点赞数

文章标签：人工智能

前言

我从事 java 3年左右开始转AI大模型，现在自觉也还在过程中。

我的路径相对曲线。我首先到了一个AI相关工作的部门做 java 工程，偏AI产品包装落地。这个部门本身不负责算法，基都是工程相关的同学，但接触算法的机会非常多。

运气比较好，做的产品自主研发的基础算法还比较多，不是单纯包装API。算法是偏图形学，我也学习了一些opencv的东西，对图形图像入了个门。

这个过程差不多半年。后来我就一直在自学深度学习的东西，买了tf的书和深度学习理论的书看。期间还写了OCR的demo，代码调不通的时候请教其他组同事，及时把细节弄动。因为demo比较简单，用到的深度学习的东西也不复杂，我都尽量把原理弄懂，看看经典论文。

我做得比较好的是，把自己的学习成果组织好，在群里和大家汇报，得到了老大的认可。这差不多也有小一年的时间。后面机会来了，我们的产品有一部分需要用到深度学习来做OCR模型。组里只有我有基础，我就上了。

我也知道这个任务可探索性比较多，所以我探索了很多backbone结构，整理成一系列实验报告。最后也基本做出来了，报告也比较多完整，老大很满意。这差不多两三月。再后来我开始在github上看PaddlePaddle的模型库代码。当时几乎把里面关于CV的模型源码都看了，还看了很多NLP相关的资料。也看了两本NLP入门的书和经典论文。这个过程差不多也有半年。

后面就运气爆棚。老大觉得我们部门需要一个算法组来支撑业务。因为我是组里唯一懂这块的人，我成了算法组组长，招了三个算法应届生。他们的水平都很好，我有了可以交流学习的朋友，这对提高水平很有帮助。再后来尝试一些简单的任务。和比赛不一样，这些实际任务没有baseline模型，都需要自己想。我先查有不有相关的资料，因为很简单，所以也不一定有现成的东西。然后我根据自己的理解去做。遇到效果不好和同学请教讨论，然后总结出来。现在这种任务我也基本能独立搞定了，这个过程差不多也有两三个月。

现在的我比最开始转的时候豁达很多，了解算法究竟是什么，能做什么和不能做什么。哪怕现在我转其他也不会那么畏惧。不管是工程还是算法，可见的技术都是手段，工程师的天职是落地，多件称手的兵器是好事。