计算机大学英语融合的课题有什么,大学英语四级作文自动生成技术研究-计算机科学与技术专业论文.docx...

大学英语四级作文自动生成技术研究-计算机科学与技术专业论文

万方数据

万方数据

Classified Index: TP391.2 U.D.C: 681.37

Dissertation for the Master Degree in Engineering

RESEARCH ON AUTOMATIC CET-4 WRITING GENERATION

Candidate:Xing Haitao

Supervisor:Prof. Li Sheng

Academic Degree Applied for:Master of Engineering

Speciality:Computer Science and Technology

Affiliation:School of Computer Science and

Technology

Date of Defence:June, 2014

Degree-Conferring-Institution:Harbin Institute of Technology

摘 要

摘要

随着自然语言处理技术的发展,应用自然语言处理技术的成熟产品如 Siri 已经开始进入人们的日常生活中,激起了人们对自然语言处理技术的热情。 本课题旨在探究在如何利用现有的自然语言处理技术在自动生成大学英语四 级作文。围绕着这个任务,本文的研究主要涉及到以下几个方面:

(1)作文素材库的构建。本文利用互联网资源构建了以四级作文为资源 的素材库,其中主要是利用以英语教学为目的的门户网站以及搜索引擎获取 作文资源,并利用 Lucene 搭建了一个检索平台。

(2)利用可获取的候选文档,生成相应的四级作文。本文采取了从候选 文档中抽取句子,并对句子进行排序的策略来生成作文。基于该策略,本文 给出了三种不同技术下的作文生成研究:基于词频统计的作文生成、基于质 心聚类的作文生成以及基于主题模型的作文生成。对于任意给定的题目以及

候选文档,我们都可以通过上述三种技术来生成相应的四级英语作文。利用 评分工具的打分可以看出,三种技术生成的作文质量都会有高有低,但通过

对比实验结果发现,基于主题模型生成的作文在整体效果上要好于其余两种。 对比两种候选文档的方式,结果表明,使用范文作为候选文档生成的作文质 量要远远好于基于互联网获取的文档作为候选文档生成的作文质量。

(3)英语四级作文的自动评分。通过综合作文的内容特征、语言知识特 征以及篇章的连贯性特征,采用回归模型,本文给出了针对四级作文自动评 价方法。在评价作文内容特征时,我们考虑了其 N-gram 共现、Skip-gram 共

现、LCS 共现;在评价语言知识特征时,我们考虑了单词拼写以及语法错误; 在评价篇章连贯性时,我们考虑了包括词重叠、LSA 以及连接词三个方面的 指标。最后,训练出的回归模型,获得了相关系数为 0.83 的结果。

关键词: 作文生成;句子抽取;自动评分;自然语言处理技术

I

Ab

Abstract

Abstract

In recent years, some products based on Natural Language Processing technologies, like Siri, are stepping into our ordinary life gradually, which inspires people’s greater enthusiasm for Natural Language Processing. In our research, we want to explore the means of automatic CET-4 writing generation by using the existing Natural Language Processing technologies.

In this paper, we conduct our research in three aspects. And the general research content are presented as follows:

Firstly, we construct a repository getting candidate composition. We get the composition based on portals and Search Engines. And then build a retrieval system based on Lucene.

Secondly, we explore the technologies of generating composition. After we conduct a surve

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值