随笔文章
jianafeng
这个作者很懒,什么都没留下…
展开
-
为什么要假设数据是独立和相同分布?
为什么要假设数据是独立和相同分布?这个假设让maximization在数学上非常容易计算。观察数学的独立和相同分布(independent and identical distribution)的假设,简化了优化问题中likelihood函数的计算。另外 我们用来训练的样本点具有较好的总体代表性。为什么要有总体代表性?我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果原创 2022-03-13 23:57:52 · 614 阅读 · 0 评论 -
深层网络训练困难原因
参考文章https://mp.weixin.qq.com/s/oKYDV8_eMXyjnuOndL4IRA现在Transformer越来越大,比如GPT-3参数有上千亿,但也只是96层的Transformer模型,并非我们以为的那么深,所以是什么原因限制了它的深度?梯度消失还是梯度爆炸呢?有人认为是增量爆炸,也就是说模型越深,对输出的干扰越大。 上周的论文《DeepNet: Scaling Transformers to 1,000 Layers》则沿着这个思路进行尺度分析,根据分析结果调整了模型的归原创 2022-03-13 23:45:22 · 1509 阅读 · 0 评论 -
使用Hexo搭建属于自己的博客-记录过程
目录序言PART ONE -- 环境构建PART TWO -- 网页博客美化PART THREE -- 用Github来托管博客序言使用Hexo搭建属于自己博客网站要使用Hexo,首先得确保计算机上已经安装了node.js环境和git环境前者是一个能够在服务器端运行JavaScript代码的环境,后者是版本控制工具。安装node.js主要是为了使用它的包管理工具npm,所以不需要先系统的学习node.js的知识而安装git是为了利用版本控制系统克隆代码已经将博客项目托管到三方平台一般mac电脑原创 2022-03-04 01:11:55 · 753 阅读 · 0 评论 -
百度PLATO对话机器人
聊天大师——百度 PLATO业界首个突破百亿级参数的对话大模型 PLATO-XL 的对话机器人,一经问世就给大家带来了不一般的对话体验。它可以俏皮可爱、也可以老练深沉,既能陪你谈家长里短, 也能陪你聊诗词歌赋。PLATO-XL——业界首个百亿级参数的预训练对话生成模型;通过测试评估,PLATO 在多轮对话回复中的逻辑性、知识广度、对话答复趣味性等维度,都达到了新的高度。百度凭借 PLATO 系列技术,在世界顶级的人工智能领域最权威的比赛 DSTC 上也大放异彩。在2020年的 DSTC-9 中,PLA原创 2022-02-22 16:41:47 · 645 阅读 · 0 评论