自然语言处理呀~
清川先生
上海交大计算机博士在读,博客已迁移到:https://www.zhihu.com/people/liu-ji-27-94
展开
-
Difflib扩展工具解决病句标注伪数据标记问题
项目代码在我的GitHub上1 问题引入1.1 病句标注问题病句纠错是自然语言分析领域中的一个常见问题。神经网络的纠错模型往往需要较大的数据量。但由于语病是一个小概率事件,真实生活中的病句数据量往往难以满足模型训练的需要,所以制造伪数据成为必要。使用模型自动产生的伪数据中不含有具体错误的位置和类型的标签,无法直接输入模型。所以我们需要一种方法,在给出病句和正确句子的前提下,在病句上标注出错误...原创 2019-12-11 21:08:18 · 310 阅读 · 0 评论 -
自然语言处理大纲
写在前面这是清川在本科大三的寒假(2019.1)于某自然语言处理实验室实习的过程中的一系列实验记录,知识有限,文字粗疏,肉眼可见的有很多错误,希望大家指正!当时没有任何神经网络的基础,决定和partner一起研究自动文本摘要领域,读到这篇经典论文后,决定复现论文中的TextSum模型。但在当时,网上除了Pavel Surmenok基本没人撰写过相关教程,都是在介绍,没人真正实验过。于是挑起重担...原创 2019-12-11 19:52:53 · 806 阅读 · 0 评论