心得理解
为援不可图
一个喜欢将技术应用于实际中的程序猿,喜欢搞算法、前后端交互,也希望自己的小经验能够帮助到大家
展开
-
LSTM与RNN的优势
随着深度学习的研究取得较大进展,基于人工神经网络的机器翻译(Neural Machine Translation)逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。实现了“理解语言,生成译文”的翻译方式。这种翻译方法最大的...原创 2018-03-06 19:40:34 · 15245 阅读 · 0 评论 -
中英平行语料
训练机器翻译模型是有一段时间了,现在想回过头来整理一下关于数据方面的心得。 (1) 数据来源 现在对于学生党来说,获得相对较大的数据可能还是比较困难的,无论是从技术还是从金钱方面。对我来说,找过好多关于数据方面的网站,就翻译模型来说,能够找到对齐的双语数据是很难得的,许多高校发布了自己的双语数据库,但是只能供自己内部使用,对外部的数据少之又少,而对数据商城来说,这些数据又太贵,学生党负担不起,...原创 2018-03-31 20:10:54 · 4828 阅读 · 31 评论 -
HashTable has different value for same key. Key <s> has 1 and trying to add value 4
今天在处理语料的时候,总是遇到上面的这个问题,我总以为是我的语料里面有重复的词语出现,但是用以前的编译过的程序进行去重的时候发现,文本的总行数是不变的,也就是说,语料里面并没有重复性的词语或字,可是,为什么总会出现这样的情况呢? 我回想以前处理语料出现的种种错误,翻看以前的日志,突然意识到可能是编码搞混了,在https://blog.csdn.net/qq_32113189/article/de...原创 2018-05-24 11:29:48 · 903 阅读 · 0 评论 -
研究生要不要出去实习
自从5月1日开始,我便在北京的一个公司进行实习,不知道像我这样的有没有同样的经历,我想谈一谈研究生到底要不要出来实习。 很多人说研究生分为两种,一种是学硕,专搞学术;另一种是专硕,专搞工程。这种说法其实在某种程度上我不太苟同,搞学术要有基础的操作手段来进行学术研究支持,搞工程要有高领域的论文来进行佐证。因此,大部分学校可能会要求研究生在校期间要进行为期半年到一年的实习阶段,那么在这个阶段我们...原创 2020-08-07 17:16:28 · 25875 阅读 · 1 评论 -
李彦宏:“AI开发者大会”带给了我们什么?
2018年7月4号,国家会议中心迎来了百度AI开发者大会,这次会议不仅仅是百度自去年以来所举办的第一次大会,而且,也是一场智能革命。 人工智能正在无时无刻介入我们的生活,全球都在搞智能革命,以前的信息化时代逐渐向智能化时代进行演变,各个科研巨头正在努力的跻身这场革命中,落后的注定要被淘汰,这是历史的趋势,也是历史发展的必然。 AI开发者大会大概有以下几种新的事物展示在我们面前: ...原创 2018-07-05 09:54:30 · 433 阅读 · 0 评论