2021SC@SDUSC
如标题所见,这是一篇关于我们“软件工程应用与实践”课题小组的项目综述。在这篇博客中,我将介绍我们课题小组选择的课题及其相关背景,提出我对于这个课题的初步认知,并对我们小组对项目源代码的分析工作的分工安排进行讲述。
一、课题项目介绍
课题名称:中文信息抽取
课题描述:输入一段自然语言(中文)文本,抽取出文中的实体及其关联关系。
应用价值:探索针对专业文本的中文信息抽取工具。
方法工具:DeepDive
数据集:中文专业数据集
二、课题背景
目前的人工智能领域中,NLP(Natural Language Process, 自然语言处理)问题一直是极为重要的一个组成部分。人之所以有别于其他动物,很大一部分原因就在于人类有一套完整的语言系统,借助这套语言系统,人们能够与同类进行高效的沟通,从而理解彼此的意图。通过研究NLP问题,我们能够反过头来剖析人类语言体系的内核,开发出一套方法,让机器也能够理解人类的语言,从而掌握人类的一部分“智能”。这,将会是走向强人工智能的一条必经之路。
而我之所以选取这一个课题,原因有二。其一,文本信息抽取属于NLP问题的一个分支。NLP问题是如此庞大,对于一个本科生而言,在基础知识掌握尚不完全的情况下,想要贸贸然地对一个庞大的体系进行学习无疑是难如登天。因此,从文本信息抽取这一个分支出发,甚至是在这个分支中再细化到中文这个领域进行研究,无疑会更适合当前的知识储备情况。其二,中文信息抽取同样是与我们的生活息息相关的知识,我们往往总是在不经意间用到这一项仿佛本能一般的技能。如果