(一)慕课评论的语义分析模型
慕课与校园内的在线课堂不同,具有明显的大规模和开放性的特征,主要表现在以下两个方面:
1. 慕课评论具有大数据的特征。 由于慕课的受众往往以千或万为单位, 远非校园内的小规模在线课程可比。如此巨大的数据如果仅靠人工进行分析,将耗时耗力且效率低下。如何建立有效的分析机制,尤其是通过小规模的人工标注训练数据来对大规模实际数据进行预测,是慕课数据分析中应解决的重点问题。
2. 慕课评论信息混杂,噪音信息多。 慕课的学习者在认知水平、认知风格等方面均千差万别,且其学习过程缺乏有效的监督。 这也导致了慕课评论中包含着各种不同类型的信息, 甚至是一些无用的噪音信息。 对教学和管理有价值的“金子”则隐藏在海量的“沙子”中。 如何通过“大浪淘沙”找出这些“金子”,是慕课管理中的难点问题。
针对上述两大特征, 本文提出了一种基于分类的慕课评论语义分析模型,其基本原理如图 1 所示。首先根据慕课评论挑选出有代表性的语义特征, 然后利用文本分类的方法将评论分为不同的类别。 在本研究中,评论被分为三个主要的类别:内容相关类、情感相关类和其他类。 完成评论分类后,针对不同的评论进行有针对性的语义挖掘, 如内容挖掘、情感挖掘和技术支持挖掘,找出评论中有价值的信息,并向各类利益相关者提供意见和评价。
(摘自:大数据视角下的慕课评论语义分析模型及应用研究_吴林静)
对于我们所做的项目来说,我们构建自己的语义模型,在我们自己的语义模型里第一步就是关键字的提取,其次是根据关键字提取有效信息段落。
二、 中文分词技术的研究与应用
对一段文本进行语义分析,最终要落实到词语上,因为词语是能够表达一定意义的最小的能够独立活动的语言成分。由于汉
语英语在书写习惯上有很大的区别,英语中单词之间用空格隔开,而汉语这是在句子之间用标点符号隔开,旬子中的字词是连在
一块的,没有特别的区分标记。因此,中文分词是研究语义分析的首要任务。中文句子是由词语组成的一段连续的字符串,这里
的词语不仅限于词汇,还包括汉语表述中不可避免的出现的一些非汉字字符,比如外文字符,阿拉伯数字和标点符号等。依据
《现代汉语规范GB/T 13715-92) 中的定义,汉语中最小的语言处理单位是词语。中文分词站在语义信息处理的角度,依据某种
规范将中文句子划分成最小独立单位的过程。划分结果要求词语结合符合中文语法习惯,分词算法稳定。(摘自:负面新闻判定
算法的研究与应用_曹欢欢)
因此 我们首先也是必须需要学习FNLP有关中文分词的知识。点击打开链接