国赛三等奖,广东省二等奖
“智慧政务”中的文本挖掘应用
摘要
在这个信息时代,以怎样的方式去了解民意、汇集民智、凝聚民气是城市政府以及相关工作部门日益关心的重大问题之一。但随着各类社情相关的文本数据量的不断攀升,以人工的方式对群众的留言进行分类以及对热点问题的整理往往存在工作效率低下的问题。因此,本文将基于数据挖掘技术对“智慧政务“中的文本即群众的留言数、群众关心的热点问题、以及相关工作部门的解决方案数据进行内在信息的挖掘与分析。
首先,在本次数据挖掘过程中,我们首先对获取得到的留言数据利用基于Python的fastText原理对数据预处理、分词以及停用过滤操作,实现对留言数据的分类,并提升了可建模度,并使用F-Score对训练模型进行评价,经过不断的训练,最终得到评价值约为0.8835。
其次,对热点问题的挖掘,我们首先对留言语料进行文本预处理,使用TF-IDF方法进行分词及去除停用词操作,用欧氏距离来得到相似的度量报道与话题的相关性,最后通过文本聚类k-means算法,把相似的高的留言加到对应的话题簇中,得到了话题簇,因此得到了排名前5的热点问题和相应热点问题对应的留言信息。
最后,问题3主要从答复意见文本的相关性、完整性和可解性、时效性和信息量等角度出发,来建立相关工作部门对留言答复意见质量的评价指标。本文运用预先相似度计算方法来计算留言主题与相关工作部门的答复意见之间的相似度, 用自动化可读性指数ARI来表示可解释性,ARI的计算公式为:API=4.71*(总字符数/总字数)+0.5*(总字数/总句数)-21.43。基于主成分分析之权值计算方法,算出为接下来即将要构建的评价模型中各个评价指标的权重。其中相关性、可解释性、实效性和信息量分别所占的权重为0.26、0.28、0.18、0.28,最后得到答复意见质量评价模型为 Q=0.28Words+0.26Relevancy+0.28Credibility+0.18Timeliness+0.01。
关键词:自然语言、fastText原理、n-gram特征、F-Score评价、k-means算法、欧氏距离、TD-IDF方法,广义线性回归
Question C: Text Mining Application in "Smart Government Affairs"
Abstract
In this information age, how to understand public opinion, gather people's wisdom, and gather people's popularity is one of the major issues that the city government and related work departments are increasingly concerned about. However, as the amount of text data related to various social conditions continues to rise, there is often a problem of low work efficiency in manually categorizing the masses' messages and sorting out hot issues. Therefore, based on the data mining technology, this article will mine and analyze the intrinsic information of the text in the "smart government affairs", that is, the number of messages of the masses, the hot issues that the masses care about, and the solution data of the relevant work departments.
First of all, in this data mining process, we first use the Python-based fastText principle to preprocess the data, segment the words, and disable the filtering operation on the obtained message data, classify the message data, and improve the modelability And use F-Score to evaluate the training model. After continuous training, the final evaluation value is about 0.8835.
Secondly, for the mining of hot issues, we first perform text preprocessing on the message corpus, use the TF-IDF method to perform word segmentation and remove stop words, and use Euclidean distance to obtain similar measurement reports and topic relevance, and finally pass The text clustering k-means algorithm adds similar high messages to the corresponding topic clusters to obtain topic clusters. Therefore, the top 5 hotspot questions and the message information corresponding to the corresponding hotspot questions are obtained.
Finally, from the perspective of the relevance, completeness and solvability, timeliness and amount of information of the reply opinion text, to establish related work The evaluation index of the quality of the department's response to the message. This article uses the pre-similarity calculation method to calculate the similarity between the subject of the message and the reply of the relevant work department, and uses the automated readability index ARI to indicate the interpretability. The calculation formula of ARI is: API = 4.71 * Number / Total Words) + 0.5 * (Total Words / Total Sentences) -21.43. Based on the weight calculation method of principal component analysis, the weight of each evaluation index in the evaluation model to be constructed next is calculated. Among them, the weights of relevance, interpretability, effectiveness and amount of information are 0.26, 0.28, 0.18 and 0.28 respectively, and the quality evaluation model of the final opinion is Q = 0.28Words + 0.26Relevancy + 0.28Credibility + 0.18Timeliness + 0.01 .
Keywords: natural language, fastText principle, n-gram features, F-Score evaluation, k-means algorithm, Euclidean distance, TD-IDF method, generalized linear regression
evaluation, k-means algorithm, Euclidean distance, TD-IDF method, generalized linear regression
目录
1 引言
1.1研究背景
自然语言构成的文本中往往包含了丰富的信息,但是这些自然语言描述的信息是提供给人阅读理解,计算机无法组织里面的有效信息加以利用。一般的解决办法是人工直接从文本中提取信息,或者利用计算机程序通过自然语言特征抽取特定信息。如何让计算机更好的自动抽取文本信息成为急需解决的问题。中文文本信息抽取成为自然语言处理及文本挖掘领域的一个研究热点。
文本信息抽取主要分为实体抽取、实体关系抽取等部分,目前大多采用机器学习,尤其是基于概率统计的机器学习方法来解决这些问题。主要分为有指导(Supervised)和弱指导(Weakly Supervise)的学习方法。大多数自然语言处理问题面对的是一般领域语料,大多采用有指导的学习方法,需要费时费力的标注训练集,训练集的优劣直接决定了最终学习模型的好坏。然而信息抽取任务针对的往往是特殊领域语料,基于一般领域语料所总结出的抽取内容往往不能很好解决特殊领域问题。所以需要利用机器学习方法快速构建特殊领域文本信息抽取系统。
本文针对群众留言分类、热点留言以及相关部门回复方案评价问题实现了该方法,与直接通过模板提取信息相比,本文提出的方法大大提高了准确率召回率,以及减少了大量人工干预,建立模板的工作工作量。并且具有很好的扩展性,可以做到迅速构建系统应对新的中文文本抽取任务。
2 挖掘目标
本次的建模的目标是利用来自互联网公开来源的群众问政留言记录,及相关部门对部分群众留言的答复意见,采用fastText原理对文本信息进行分类,并通过不断的训练模型,调节相关参数,最终使得将不同的留言换分到不同的工作管理类别中,提高相关工作部门工作的效率。
对文本进行基本的机械预处理、中文分词、停用词过滤后、建立话题簇,对热点问题进行归类,得出当前的热点信息,以便相关部门针对性地解决实时问题,提高人民幸福指数。
实现对文本数据的倾向性判断以及所隐藏的信息的挖掘并分析,以期望得到有价值的内在内容。
3 模型构建过程及结果分析
3.1 问题1分析方法与过程
3.1.1 流程图
3.1.2 数据预处理
3.1.2.2 机械压缩取词
由于群众留言信息数据中,有些数据质量可能存在参差不齐、没有意义的情况
3.1.3 留言文本分词
在中文中,只有字、句和段落能够通过明显的分界符进行简单的化界,而对于“词”和“词组”来说,它们的边界模糊,没有一个形式上的分节符。因此,进行文本挖掘时,首先对文本分词,即将连续的字符按照一定的规范重新组合成词序列的过程。
问题1使用Jieba方法对留言文本分词,基于Jieba分词包,其运用了数据结构里的trie(前缀数或字典树),能够对词语进行高效的分类。Trie的原理如图2所示:
如上图2所示,比如我们有Johiny、J