得语言者,得天下。得语言资源者,分天下。得语言逻辑者,争天下。
前言
只有把自己所思考的,所认识的东西,以文字的方式记录下来,才是对自己成长最好的记录方式。
是的,距离上一次动手写博客或者技术文章已经过去了大半年的时间。作为一个比较喜欢总结的人,这无疑是一个一大段空白。对的,今年,我经历了一场很不可思议的事情。学业与工作经历起伏。从三月份到六月份这四个月的时间里,困在一个怎么也走不出的低谷。因此,今年我做了一个破釜沉舟的决定,我离开了工作整整四年(加上实习是五年)的中科院软件所,投身互联网。软件所的五年里,我以极大的热情执着于自然语言处理技术的基础研究和应用落地。在此期间,做过爬虫,写过后台、前端,画过原型,做过产品经理,设计过算法,写过文章做PR,参加学术会议发过文章,十分丰富多彩。作为一个喜欢思考和总结的人,最大的收获还是行形成自己的一种认识。
一、自然语言处理开源界的一枚坚持者
我将自己定义为不安分、爱搞事情的没有生活那种人。为此,我有大量的时间去做我认为可以去搞的事。作为一个从国家语言资源监测中心毕业的语言学学生,我一直注重底层语言资源建设。语言资源,包括语料库、词库、知识库、自然语言处理组件等。
为此,我于2018年9月份开始,开启了我的github开源项目之路,并用近3年的时间,从follower数从1增至3600多人,star数从零增至当前的14k。
在一个开源项目的主页里,完全满足了我对自然语言处理的使用极限,从实现最传统自然语言处理分词组件,到使用深度学习完成医疗命名实体识别;从利用自然语言处理技术进行情感分析到进行主观性计算,进行事件脉络计算等,将能想到的,能做的都做了一个遍。这份经历是很有收益的,因为成为了不少NLP学习爱好者入门的一个很好的索引。
在这个项目集合中,细分了语言资源、语言工具、知识图谱资源、情感计算、文本计算、自然语言处理组件等多个环节。并依照每一个大点,都做了很多基础性的尝试。
二、知识图谱与事理图谱界的一位落地者
与单纯的理论研究,我更关注如何使用技术来解决实际问题。这个解决,从金融和情报两个领域开始。从毕业后从事的第一份工作,是在金融领域起步的。其