自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我心素已闲,清川澹如此

关注边缘计算、移动计算,爱好围棋、吉他、篆刻、绘画、诗词、美食、旅游、文学、科幻电影和美剧,愿生活的每一刻都是美好

  • 博客(19)
  • 收藏
  • 关注

原创 Python的知识碎片与奇技淫巧

本文长期更新,收录一些不太常见(其实就是我不太会)的语法,一些语法糖以及简洁优雅的代码片段,酌情食用,小心高血糖。相关参考资料:Python黑魔法手册文章目录知识碎片#1 Numpy中的省略号索引 - Ellipsis常量#2 Numpy中新增的点乘运算符:`@`奇技淫巧列表合成字典ASCII字符表列表中出现频率最高的元素列表作为字典值的无判断扩充合并输出列表内容获取词语的汉语拼音匿名函数中非返回语句走火入魔一个为内置类型添加方法的装饰器函数的单参数化函数的curry化模仿C++输出模仿命令行管道模

2021-01-17 22:49:30 241 2

原创 windows x64 GCC AT&T汇编程序分析 - 编译器设计前的铺垫

写在前面话痨预警!我永远忘不了本科时代编译原理的课程设计,那是我成年后的第一次崩溃。选题要求可以做编译器的前端、后端或者两者都做,评估了一下所带领的开发团队的实力,毅然决然选择只做前端,把前端做精,并且为后端开发留好接口。两个星期,我艰(dan)苦(da)开(du)发(dou),几乎都熬到凌晨3:00,发布前还通宵调试,终于我认定我做了一个优秀的前端,拥有完美而丰富的功能。发布那天,验收...

2020-02-15 00:38:21 1149 2

原创 Python文字转图片 | 诗词歌词格言生成配图卡片

问题来源最近这几天因为新型冠状病毒疫情的缘故,不得不宅在家里,学业荒废,心中烦闷浮躁。想要静下心来,整理过去,思考当下,展望未来。整理过去包括整理几年来的手机照片、备忘录、浏览器书签、收藏等等,发现整理并不是一个简单的事情,不但费时费力,还需要技巧和灵感,未来可能专门写一篇关于数字时代的个人整理术的文章,这里不再啰嗦。我有一个习惯,看到喜欢的句子,或有了特别的感悟,愿意记在手机的备忘录里,想必...

2020-02-07 20:18:30 1647

原创 C语言底层搭建CNN实现MNIST手写数字识别

本工程使用C99标准的纯C语言(不使用STL)编写了CNN,实现在MNIST数据集上的手写数字识别。本文目的是为将来在FPGA等更底层的边缘设备上实现CNN做铺垫,当然CNN的训练过程在服务器上进行,推断过程在边缘端进行,那么我们的目的就是开发一个同时支持服务器训练和FPGA推断的项目,或者给出一个通用的研究方法。

2019-12-26 21:58:13 3292

原创 弹性碰撞次数与圆周率的关系 - 3Blue1Brown

问题来源如何求解这个小球碰撞次数与圆周率关系的趣味问题? - 知乎三种解法占位待续(第三种解法的矩阵正交复变换触及了我的数学盲区)

2019-12-17 15:17:46 4087 1

原创 Sampled Softmax

论文原文:On Using Very Large Target Vocabulary for Neural Machine Translation我的研究方向是生成式文本自动摘要,在读2016年Nallapati那篇经典论文的时候,遇到了文中所谓的LVT(large vocabulary ‘trick’)问题,比较感兴趣就读了这篇论文的原文。由于基于神经网络的生成式文本摘要的原始模型就是从NMT...

2019-12-11 21:23:20 247

原创 Difflib扩展工具解决病句标注伪数据标记问题

项目代码在我的GitHub上1 问题引入1.1 病句标注问题病句纠错是自然语言分析领域中的一个常见问题。神经网络的纠错模型往往需要较大的数据量。但由于语病是一个小概率事件,真实生活中的病句数据量往往难以满足模型训练的需要,所以制造伪数据成为必要。使用模型自动产生的伪数据中不含有具体错误的位置和类型的标签,无法直接输入模型。所以我们需要一种方法,在给出病句和正确句子的前提下,在病句上标注出错误...

2019-12-11 21:08:18 288

原创 自动文本摘要经典模型TextSum运行录(一):开始尝试

1 研究背景最近的研究课题是自然语言处理领域的自动文本摘要。文本摘要按照方法不同可以分为两大类别,即生成式摘要与抽取式摘要,我所研究的方向以生成式摘要为主。抽取式摘要主要分析原文中句子的关键性,从原文中抽取并进行合理连接得到摘要。这种方法可以直接运用统计方式,发展现状较好,在Word中也早有插件应用。生成式摘要主要使用序列到序列的神经网络模型,使用原文和摘要的语料对进行训练,最终可以给定文本输入...

2019-12-11 20:45:45 973 1

原创 ROUGE与PyROUGE的安装:虚拟机上从头再来

1 写在前面上一篇文章:ROUGE与PyROUGE的安装:非root权限的尝试与失败,烂尾了。由于没有服务器的root权限,最终也没能成功。但我是不会就这样放弃的,经老师建议,我可以在本地安装虚拟机,在虚拟机中使用ROUGE评价模型。我使用的软件是VMware Workstation Pro。还记得大一的暑假参加科技夏令营的时候,我们学习在服务器上部署LNMP框架,搭建WordPress的博客...

2019-12-11 20:44:37 706 2

原创 ROUGE与PyROUGE的安装:非root权限的尝试与失败

1 ROUGE的安装过程主要参考了这篇博客:Ubuntu安装配置ROUGE1.1 普通用户的权限问题网上给出的教程大都是使用Root权限安装的,无论是yum install还是apt-get都是无法在普通用户权限下使用的。下面先给大家讲述我在普通用户权限下为安装ROUGE做的一些失败的尝试,请大家切勿模仿,我也不会给出十分详细的过程。成功的教程请看下一节。首先,安装ROUGE需要用到Per...

2019-12-11 20:21:42 944

原创 自然语言处理大纲

写在前面这是清川在本科大三的寒假(2019.1)于某自然语言处理实验室实习的过程中的一系列实验记录,知识有限,文字粗疏,肉眼可见的有很多错误,希望大家指正!当时没有任何神经网络的基础,决定和partner一起研究自动文本摘要领域,读到这篇经典论文后,决定复现论文中的TextSum模型。但在当时,网上除了Pavel Surmenok基本没人撰写过相关教程,都是在介绍,没人真正实验过。于是挑起重担...

2019-12-11 19:52:53 781

原创 自动文本摘要经典模型TextSum运行录(五):平均损失不下降

1 实验现象1.1 模型将显存占满在成功使用显卡运行Textsum模型后,首先发现模型耗用了显存10GB,而GPU利用率却只有25%左右。这是因为我们使用的数据集CNN的单篇篇幅较长,分批次训练时,将一批数据加载入显存,所以占用较高,实际上耗用的计算资源却不多。当然这也可能和模型的框架陈旧,效率较低有关。虽说如此,从训练速度上看,global step从原来的0.6提升到了2.5以上,速度提高...

2019-12-11 19:16:17 335

原创 自动文本摘要经典模型TextSum运行录(四):显卡环境

1 反思环境错误之前的bazel编译命令中如果加入cuda参数--config=cuda,那么会报以下的错误:Starting local Bazel server and connecting to it...INFO: Options provided by the client: Inherited 'common' options: --isatty=1 --terminal_c...

2019-12-11 18:59:09 532

原创 自动文本摘要经典模型TextSum运行录(三):继续战斗

这篇文章是Textsum数据处理的续篇,主要记录了再次实验中遇到的问题,以及对实验的不断改进和完善的过程。1 再次运行模型由于词频统计脚本实在是太慢了,在它统计完三分之一,即约三万条数据的时候,我决定开始重新运行模型。我们将处理好的9w条CNN数据,取前34600条作为训练样本,生成新的文件。将其拷贝到Textsum工作空间下的data/下,重命名为data。同时将对应的story.vocab...

2019-12-11 18:53:58 378

原创 自动文本摘要经典模型TextSum运行录(二):数据处理

Textsum模型在toy dataset上的运行过程参见上一篇博文:Textsum运行录为了进行更深入的实验,我们需要使用更大更有效的数据集,同时也需要将其他格式的原始数据集转换成Textsum模型可以读入的格式。这里我准备使用CNN新闻数据。我没有使用surmenok的数据转换代码(他那份代码实在是太长太难懂了),而是自己编写了一套工具。主要分为两个方面,一个是data数据集的构造,一个是v...

2019-12-11 17:34:11 671

原创 命令提示符的格式设置

服务器初始默认的命令提示符很长,而且没什么意义。在我们使用Putty等工具进行服务器与本地之间的数据传输时,往往需要用到服务器的用户名@服务器外部IP地址:当前路径。有时候记不住IP地址就需要去查,很麻烦,如果将这些信息标注在命令提示符处再合适不过。这里用到的就是Linux中的PS1这个环境变量。你可以通过如下命令查看当前的默认设置:$ echo $PS1PS1的常用参数及其含义如下表:...

2019-12-11 17:19:35 449

原创 抛物线的中点Bresenham算法

1 抛物线的特征通常定义抛物线为到一条直线(准线)和直线外一点(焦点)距离相等的点的集合。这里只讨论顶点为原点,沿纵坐标轴对称且开口向上的情况。而对于其他情况可以通过图形的平移和旋转等线性变换得到。其描述方程如下:F(x,y)=y−ax2(a>0)F(x,y)=y-ax^2(a>0)F(x,y)=y−ax2(a>0)与椭圆不同,抛物线是无边界的非封闭图形,若要在屏幕上绘...

2019-12-11 17:09:18 4207

原创 小学生奥数倒水问题的数学模型与算法求解

1 问题描述设有n个容器,容量分别为L1, L2, ..., Ln,初始情况下的水量状态向量为(W1, W2, ..., Wn)。要求的目标水量状态向量为(D1, D2, ..., Dn)。求是否有一个倒水的操作序列作用与水量状态向量,使其从初始态变为目标态,要求不能借助其他工具,包括肉眼观察水位。2 问题分析2.1 倒水操作规则我们可以分析得到,倒水操作序列中的每一个操作必为可逆操作,它...

2019-12-11 16:15:31 5173

原创 递归法求解算术表达式

问题引出逆波兰式的递归定义如下如果算术表达式E = (E'),则RPN(E) = E'如果算术表达式E = E1 OPERAND E2,则RPN(E) = RPN(E1) RPN(E2) OPERAND注:RPN 表示 Reverse Polish notation其中问题求解的难点在于,对于第二条规则如何分割子串。编译原理课上老师回避了这个问题,而使用了常见的算符栈的方法求解,但仔...

2019-12-11 16:03:05 1032

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除