基于大数据的舆论分析系统

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/biyesheji51qqcom/article/details/88993887

获得更好的阅读体验请访问http://www.itbiyesheji.com/index.php/2019/04/03/基于大数据的舆论分析系统/

目   录

摘要 …………………………………………………………………………………1

Abstract ……………………………………………………………………………1

1  引言 ……………………………………………………………………………1

1.1  系统开发背景  ………………………………………………………………1

1.2  系统开发的目标和意义………………………………………………………1

1.3  国内外研究现状………………………………………………………………1

1.4  研究综述………………………………………………………………………1

1.5  本文主要研究内容和组织结构………………………………………………1

2  系统相关技术简介…………………………………………………………2

2.1  Hadoop技术简介  ……………………………………………………………2

2.2  HDFS技术简介 …………………………………………………………………2

2.3  HBase技术简介 ………………………………………………………………2

2.4  Kalfa技术处理日志 …………………………………………………………2

2.5  PIG技术简介  …………………………………………………………………2

2.6  Lucence技术简介  ……………………………………………………………2

2.7  HIVE技术简介  ………………………………………………………………2

2.8  Python技术简介………………………………………………………………2

2.9  爬虫技术分析…………………………………………………………………2

2.10 本章小结………………………………………………………………………2

3  系统的需求分析………………………………… …………………………3

3.1  系统的可行性分析 ……………………………………………………………3

3.2  系统的需求概述………………………………………3

3.3  本章小结 ………………………………………………………………………3

4  系统的功能设计……………………………… 5

4.1  系统的设计原则……………………………………… 5

4.2  系统的设计架构……………………………………… 5

4.3  系统的具体功能模块设计…………………………… 5

4.4  系统的数据库设计…………………………………… 5

4.5  本章小结……………………………………………………………………… 5

5  系统的具体实现………………………………… 6

5.1  系统的网络拓扑图…………………………………………………………… 6

5.1  系统的具体功能实现………………………………………………………… 6

5.2  系统的测试结果……………………………………………………………… 6

5.3  系统的后续优化工作………………………………………………………… 6

5.4  本章小结……………………………………………………………………… 6

参考文献 ………………………………………………………………………… 8

致谢……………………………………………………………………………… 10

引言

1.1系统开发背景

我国目前处于经济转轨、社会转型的关键时期,隐藏于社会的不稳定因素增多,突发性事件发生频率加大,严重威胁着人们生命财产的安全和社会稳定。所谓突发事件,3个必备条件:一是突然发生,难以预料;二是问题极端重要,关系安危,必须马上处理;三是首次发生,无章可循。根据其发生过程、性质和机理,主要分为四大类:自然灾害、事故灾难、公共卫生事件、社会安全事件。我国政府在公共危机管理方面的起步比较晚,底子薄弱,缺乏经验,在实际处理危机时暴露了不少的问题。以2013在上海爆发的H7N9为例,根据《解放日报》报道,3月20日初步认为患者可能感染新型流感病毒,3月21日即报告市卫生行政部门。3月22日按相关规定,由上海市疾控中心将标本送中国疾病预防控制中心。3月29日下午国家疾控中心分离到H7N9禽流感病毒,这个结果3月30日被通报。上海的做法完全按照突发事件的信息发布、传播规定进行的,但是根据《突发公共卫生事件应急条例》规定:“国务院卫生行政主管部门负责向社会发布突发事件的信息。必要时,可以授权省、自治区、直辖市人民政府卫生行政主管部门向社会发布本行政区域内突发事件的信息。”如果在突发事件发生时,上海卫生部门有权直接公布传染病疫情或者国家疾控中心的检测与地方平行进行的话,那么,H7N9禽流感疫情或许在3月20日左右即可发布,这样就可以大大减少谣言发酵时间。从这个案例可以看出,政府处理危机时信息传递系统存在缺陷。目前,我国政府系统内部的信息传递一般都是线性信息传播模式(如图一),或者说大多数都是上下级纵向式的沟通方式。在这种模式下,上级政府对信息的获取,一般来自于地方政府的报告,而由于保密法原则,大多数的官员都不愿意在危机来临时作出相关的决策,往往将公开信息的责任推向上级,但是高度集中的政府管理体制,又令各级政府在处理危机信息时惯于层层审批,严重延误信息的实时更新。同时,中国人喜欢报喜不报忧,地方政府处于某种利益,可能会出现有意隐瞒危机信息,把危机的程度降低后再报,或者用各种接口拖延上报的时间,导致危机的情况不能及时更新。再者,上下级之间缺乏沟通,上级政府对信息的灵敏度和共享性较弱,而且由于层级过多,多有信息误传的情况发生,一系列的问题都使得上级政府无法及时、迅速地了解危机的具体情况,及时、有效地提出处理危机的方法。[1-8]

(图一:传统政府的线性信息传播模式)

当我国仍然依靠各级政府层层传递危机信息、经过层层审批后获得处理危机的方法的时候,国外已经依靠大数据的帮助,及时、有效地预测出有可能爆发的潜在危机,并且对症下药,提出危机处理方法。例如,2009年的时候,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

1.2国内外研究现状

1.2.1 国外研究现状

当前,许多国家的政府和国际组织都认识到了大数据的重要作用,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要手段,实施大数据战略。

2010年,欧盟正式发布“欧洲数字化议程”,旨在建立一个统一的“数字市场”,推动欧盟内部高速和极速互联网互联互通和应用共享,进而促进欧盟经济社会可持续发展,造福欧盟人民。2012年,欧盟委员会在“欧洲数字化议程及其挑战”中制订了大数据战略,并强调了公共数据安全及挖掘公共机构数据的价值潜力,同时满足日益强烈的对个人数据安全保护的诉求;发展物联网,确保网络安全及在线交易的数据处理安全。

2011年,韩国总统国家ICT战略委员会发布了“大数据倡议”。“大数据倡议”旨在建立泛政府大数据网络和分析系统,推进政府与私有部门之间的数据共享融合,建立公共数据诊断系统,培养和培训合格的大数据专业人员;保障个人信息安全,以及改善相关法律,发展大数据基础设施和技术,发展大数据管理和分析技术。 很多韩国政府机构已经提出了相关的行动计划。例如,韩国卫生部建立了社会福利综合管理网络,分析来源于35个机构的385个不同类型的公共数据,综合管理中央政府和地方政府提供的福利和服务。食品、农业、森林与渔业部、公共行政与安全部(MOPAS)计划推出预防手足口病的综合系统,该系统依托于分析动物疾病相关的海外大数据、海关出入境记录、养殖场的跟踪调查、牲畜迁移和养殖工人活动等相关的大数据,实现预防目的。MOPAS的另一计划是推出灾害预报系统,该系统基于过去的灾害记录和自动实时的天气和地震预报进行预测。此外,韩国生物信息中心计划开发和运营国家DNA管理系统,该系统集成大量的DNA和病人医疗信息,为个人提供个性定制化的诊断和治疗。

新加坡政府在2004年针对国家安全、传染病和其他国家层面关心的问题,与其国家安全协作中心合作发布了风险评估和水平扫描计划(RAHS)。通过对大数据的采集和分析,积极把控威胁国家安全的相关问题,包括恐怖袭击、传染病传播和金融危机等。风险评估和水平扫描计划实验中心(REC)于2007年开放,它聚焦于风险评估和水平扫描计划相关政策制定的新技术工具,并通过大数据基础设施系统升级来维持和强化这一能力。为通过大数据研究、分析和应用创造价值,新加坡政府还推出了门户网站 data.gov.sg,50多个政府部门的5000多个数据集通过此网站向公众开放。

日本政府已启动多个利用既有大数据的计划。从2005到2011年,文部科学省与相关的大学和研究机构合作,设立了信息爆炸时代的新IT基础设施项目。从2011年起,政府优先解决地震、核电站灾难和受污染区域的重建和灾民安置,以及相关的社会和经济救济。文部科学省与国家科学基金会合作提高研究和利用大数据的技术,以预防、减轻和管理自然灾害。作为内务省的两个分支机构,信息和通信委员会和ICT战略委员会,把“大数据应用”作为日本面向2020年的关键使命。日本已经成立了一个大数据专家组。

    争夺新一轮技术革命制高点的战役已经打响,中国政府在美国提出《大数据研究和发展计划》的2012年也批复了“十二五国家政务信息话建设工程规划”,总投资额估计占几百亿,专门有人口、法人、空间、宏观经济和文化等五大资源库的五大建设工程。我国的开放、共享和智能的大数据的时代已经来临。2012年8月份国务院制定了促进信息消费扩大内需的文件,推动商业企业加快信息基础设施演进升级,增强信息产品供给能力,行程形成行业联盟,制定行业标准,构建大数据产业链,促进创新链与产业链的有效嫁接。同事,构建大数据研究平台,整合创新资源,实施“专项计划”,突破关键技术。大力推进国家发改委和中科院基础研究大数据服务平台应用示范项目,广东地区率先启动大数据战略推动政府转型,北京正在积极探索政府公布大数据供社会开发,上海也启动大数据研发三年行动计划。[21-26]

1.2.2 国内研究现状

在政府部门数据对外开放,由企业系统分析大数据进行投资经营方面,上海无疑是先行一步,2014年5月15日,上海市自今年起推动各级政府部门将数据对外开放,并鼓励社会对其进行加工和运用。根据上海市经信委引发的《2014年度上海市数据资源向社会开放工作计划》,目前已确定190想数据内容作为2014年重点开放领域,涵盖了28个市级部门,涉及公共安全、公共服务、交通服务、教育科技、产业发展、金融服务、能源环境、健康卫生、文化娱乐等11个领域。[27-30]其中市场监管类数据和交通数据资源的开放将成为重点,这些与市民息息相关的信息查询届时将完全开放。这意味着企业运用大数据在上海“掘金”的时代来临了。

在大数据时代,互联网舆情信息变得更为复杂繁琐,而且信息传播渠道快速裂变,信息处理的时效性需求更强,以至于几乎无法通过传统的、人工的手段来及时、全面地掌握、跟踪、分析和辅助舆情决策。“数据爆炸”、“信息超载”使得政府和各行各业对舆情监测的需求不断上升,但由于这些机构和企业自身不具

备相关的专业技术能力,因此他们更大可能会寻求第三方的舆情监测系统平台。在这样的市场背景下,舆情监测行业成为很有“技术含量”的阳光产业,各个舆情系统厂商如雨后春笋般纷纷冒出。但是,并非任何系统都能够满足用户的所有需求,其中技术架构、功能特点、应用领域、监测范围乃至用户体验都是用户需要考虑的关键问题。

目前市场上常见的几家舆情监测系统的服务特点:

1. TRS大数据舆情分析平台

  拓尔思(TRS)是国内全文检索业的老大,它在非结构化数据管理方面积累了多年的实践经验。拓尔思以自己的检索功能为根基,针对不同用户开发相应的舆情需求,应用领域横跨多个领域和行业,具体涉及文化教育、食品安全、医疗卫生、交通能源、质检监察等各级政府部门,以及家电、IT企业、银行、汽车、房地产、电信等各类企业,是很多家公司的强劲对手。TRS大数据舆情分析平台的服务方向包括敏感舆情监测、口碑监测和舆情处理。监测范围则涵盖新闻、

论坛、博客、评论、平媒、微博、微信等,同时公司还充分发挥其检索优势,对百度、谷歌、搜狗等主流搜索引擎也可实现监控。强大的检索技术以及非结构化信息管理是TRS的优势,但其缺点在于文本处理功能不强,其对信息的正负面标示没有太大意义,而舆情系统最重要的就是文本处理和语义分析功能。TRS大数据舆情分析平台的采集方式是模板抓取,但在模板配置方面对客户的响应速度不高。总体来看,拓尔思的综合实力一般稍强,从市场占有率上看,每年的项目数量不多,但项目金额较大。 

2. 方正智思信息服务平台

方正智思信息服务平台以云计算技术为基础,提供独立开放的应用服务,通过平台在线使用授权租赁的方式,面向不同客户提供全面的舆情信息私有云数据服务。平台通过对互联网海量信息实时精确采集和即时深入分析,使不同领域用户在第一时间掌握网络舆论动态,并能够对关注事件或线索进行持续追踪和多维分析,对全面掌握社情民意、应对突发事件起着关键作用。监测范围涵盖境内外

新闻、论坛、博客、评论、微博、微信、移动客户端等全网平台和渠道。应用领域包括政府、媒体和企业,同时面向外宣、旅游、工信、公安、教育、金融、医疗、渠道等各垂直行业,提供更精准、更专业的信息服务。

在数据采集方面,方正采用的是模板抓取方式,据说模板库较为庞大,基本涵盖国内外所有重点或者一般站点,对客户提出的增加信源的响应速度也较快。在目前的舆情系统服务市场上,方正智思的占有份额较大。

1.3系统开发的目标和意义

我国当前利用大数据帮助政府处理危机仍然在起步阶段,理论研究者居多,能运用到实际的毕竟很少,很多技术标准或者模式尚未成熟,现有的研究多数仍然处在尝试阶段,因此,提出并实现基于大数据的政府危机处理方法的研究也具有一定的意义。

“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。[9-12]从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法只靠一台的计算机单独进行处理,必须采用分布式计算架构,对海量的数据进行挖掘,然后依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术,对所有的数据进行处理。[13]去年由中央全面深化改革领导小组举行的第四次会议审议通过了《关于推动传统媒体和新兴媒体融合发展的指导意见》,习近平总书记强调,强化互联网思维,坚持传统媒体和新兴媒体优势互补、一体发展。[14]这无疑要求我们在整合媒介、运作媒介和管理媒介方面,要想获得主动权,要想获得把握力,必须要站在时代发展的高点上,适应互联网时代的新发展去研究新情况,创新发展模式,去进行相应的社会沟通和舆情引导。针对上述政府在危机处理过程中出现的问题,本课题将讲述大数据时代下对政府危机处理方法的应用研究。大数据时代带来的诸多利弊表明,政府对于危机信息的有效处理是能有效提出处理危机方法的,而危机信息基本都来源于网络舆情。因为,网络舆情在政府危机管理中呈现的优势是能及时反映事实,然后,网络的开放性决定危机中能及时对网络舆情进行收集,明确网络舆情的收集范围。另外,在收集网络舆情的过程中,政府一方面能拓宽自身的收集舆情的渠道,另一方面能及时了解和管理社会舆论。同时,在政府危机管理过程中,网络舆情能为危机诞生提供预警功能,并引导民众用科学理性的态度去应对危机时间。最后,政府在处理危机事件的过程中充分发挥危机中网络舆情的引导,有效地试试政府的危机管理模式,用民众认同的方式方法传达政府为战胜危机事件的决心。[15-20]

综合以上主要发达国家以及我国政府基于大数据时代下提出的具体政策,可知道大数据为政府危机提供处理方法上的地位举足轻重。国内外学者关于大数据的研究主要集中应用在拥有大量数据的项目,并且项目大部分都是基于共享存储的结构化数据库,而不是使用实时、动态和非结构化或半结构化的数据。第二,政府部门期望大数据应用来提升政府服务民众的能力,以及解决国家面临的重大挑战问题,包括经济、医疗、就业、自然灾害和恐怖袭击等。然而,大部分大数据应用于居民(参与到公共事务)和商业部门,而不是政府部门。第三,政府设立的大部分大数据项目刚刚开始或计划未来实施,美国国家科学基金会和国家卫生机构的大数据计划就是如此。这意味着,大数据在政府部门的应用仍然处于发展的初级阶段,只有少数项目在运营。

1.4  本文的组织结构

第一章 对系统的开发背景进行了简明的介绍,分析了开发该的目标和意义。

第二章 对系统的开发所涉及的相关技术进行介绍,包括Hadoop、Hbase、Kalfa、Python、爬虫等技术的介绍。

第三章 分析了系统的功能需求,得出功能模块图、功能流程图、数据字典等。

第四章 阐述各个功能的具体设计。

第五章 对系统开发过程和各个功能的具体代码实现。

2 相关技术介绍

2.1  Hadoop技术简介 

Hadoop 是一个分布式系统基础架构, 由 Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运

算和存储。简单地说来,Hadoop 是一个可以更容易开发和运行处理大规模数据的软件平台。

Hadoop 实现了一个分布式文件系统 ( Hadoop Distributed File System) , 简称 HDFS。HDFS 有着高容错性的特点。Hadoop 有许多元素构成。其最底

部是 Hadoop Distributed File System( HDFS) ,它存储Hadoop 集群中所有存储节点上的文件。Hadoop 分别从 3 个角度将主机划分为 2 种角色。第一,划分为 master 和 slave; 第二, 从 HDFS 的角度,将主机划分为 NameNode 和 DataNode( 在分布式文件系统中,目录的管理很重要,管理目录的就相当于主人,而 NameNode 就是目录管理者) ; 第三, 从MapReduce 的 角 度, 将 主 机 划 分 为 JobTracker 和TaskTracker( 一个 job 经常被划分为多个 task, 从这个角度不难理解它们之间的关系) 。

    Hadoop 有 3 种运行方式: 单节点方式、 单机伪分布方式与集群方式。前 2 种方式并不能体现云计算的优势,在实际应用中也没有什么意义,但是在程序的测试与调试过程中, 它们还是很有意义的( 陆嘉恒,2011) 。本文安装的是 hadoop 集群方式, 更有现实的意义。

方便 : Hadoop 可以运行在一般商业机器构成的大型集群上, 或者是亚马逊弹性计算云( Amazon EC2) 等云计算服务上。

弹性 : Hadoop 通过增加集群节点, 可以线性地扩展以处理更大的数据集。 同时, 在集群负载下降时, 也可以减少节点, 以高效使用计算资源。

健壮 : Hadoop 在设计之初, 就将故障检测和自动恢复作为一个设计目标, 它可以从容处理通用计算平台上出现的硬件失效的情况。
    简单: Hadoop 允许用户快速编写出高效的并行分布代码。
    由 于 Hadoop 具 有 上 述 优 势, 使 得 Hadoop 在 学 术 界 和 工 业 界 都 大 受 欢 迎。 今 天, Hadoop 已经成为许多公司和大学基础计算平台的一部分。

2.2  HDFS技术简介

2.3  HBase技术简介

2.4  Kalfa技术处理日志

2.5  PIG技术简介 

 Pig 运行在 Hadoop 上, 是对大型数据集进行分析和评估的平台。 它简化了使用 Hadoop进行数据分析的要求, 提供了一个高层次的、 面向领域的抽象语言 : Pig Latin。 通过 PigLatin, 数据工程师可以将复杂且相互关联的数据分析任务编码为 Pig 操作上的数据流脚本,通过将该脚本转换为 MapReduce 任务链, 在 Hadoop 上执行。 和 Hive 一样, Pig 降低了对大型数据集进行分析和评估的门槛。

2.6  Lucence技术简介

 Lucene 是引擎开发工具包, 提供了一个纯 Java 的高性能全文索引, 它可以方便地嵌入各种实际应用中实现全文搜索 / 索引功能。 Nutch 项目开始于 2002 年, 是以 Lucene 为基础实现的搜索引擎应用。 Lucene 为 Nutch 提供了文本搜索和索引的 API, Nutch 不光有搜索功能, 还有数据抓取的功能。谈到 Hadoop 的历史, 就不得不提到 Lucene 和 Nutch。 Hadoop 开始时是 Nutch 的一个子项目, 而 Nutch 又是 Apache Lucene 的子项目。 这 3 个项目都是由 Doug Cutting 创立, 每个项目在逻辑上都是前一个项目的演进。

2.7  HIVE技术简介

hive 是分布式的关系型数据库。主要用来并行分布式处理大量数据。hive 中的所有查询除了“select * from table; ” 都是需要通过 Map \Reduce 的方式来执行的。由于要走 Map \Reduce,即使一个只有1 行 1 列的表,如果不是通过 select * from table; 方式来查询的, 可能也需要 8、 9 秒。但 hive 比较擅长处理大量数据。当要处理的数据很多, 并且 Hadoop集群有足够的规模, 这时就能体现出它的优势( 文艾,2012) 。Hive 是 Hadoop 中的一个重要子项目, 最早由 Facebook 设计, 是建立在 Hadoop 基础上的数据仓库架构, 它为数据仓库的管理提供了许多功能, 包括 : 数据 ETL( 抽取、 转换和加载) 工具、 数据存储管理和大型数据集的查询和分析能力。 Hive 提供的是一种结构化数据的机制, 定义了类似于传统关系数据库中的类 SQL 语言 : Hive QL, 通过该查询语言, 数据分析人员可以很方便地运行数据分析业务。

2.8 Mahout

 Mahout 起源于 2008 年, 最初是 Apache Lucent 的子项目, 它在极短的时间内取得了长足的发展, 现在是 Apache 的顶级项目。 Mahout 的主要目标是创建一些可扩展的机器学习领域经典算法的实现, 旨在帮助开发人员更加方便快捷地创建智能应用程序。 Mahout 现在已经包含了聚类、 分类、 推荐引擎( 协同过滤) 和频繁集挖掘等广泛使用的数据挖掘方法。 除了算法, Mahout 还包含数据的输入 / 输出工具、 与其他存储系统( 如数据库、 MongoDB 或
Cassandra) 集成等数据挖掘支持架构。

2.8  Python技术简介

Python是免费的解释性语言[1],具有面向对象的特性,可以运行在多种操作系统之上,它继承了传统编译语言的强大性和通用性,同时也借鉴了简单脚本和解释语言的易用性。Python具有清晰的结构、简洁的语法以及强大的功能,可以完成从文本处理到网络通信等各种工作,并且其自身已经提供了大量的模块来实现各种功能,除此以外还可以使用c/c+十来扩展,甚至还可以将其嵌入到其他语言中。

Python语言特点[2]:

(1)自由软件:遵循GPL协议,不需要支持任何费用,也不用担心版权问题,可阅读其源代码。

(2)跨平台:Python最初是在MAC操作系统下实现的,有很强的移植性,可运行在多种流水行操作系统之上,如Linux,Windows,MAC等。

(3)功能强大:可以使用在多个领域,如系统编程,帮助用户完成繁琐的日常工作;科学计算,它简洁的语法可以像使用计算器一样来完成科学计算;快速原型,它省去了编译调试的过程,可以快速地实现系统原形;Web编程,使用它可以编写CGI,而现在流行的Web框架也可以使用Python实现。 .

(4)可扩展:通过使用c/c++可以对Python进行扩展;Python也可以嵌入到C/C++编写的程序之中。在某些情况下,它可以作为动态链接库的替代品在

C/C++中使用。

(5)易学易用:语法简单;使用变量时无需事先声明;使用Python不必关心内在的使用,它会自动地分配、回收内存;Python提供了强大的内置对象和方法,

如本文使用的open()方法;使用Python可以减少其他编程语言的复杂性,例如在C语言中使用数十行代码实现的排序,而在Python中,可以使用列表的排序函数轻易完成。

2.9  爬虫技术分析

2.9.1 通用爬虫

通用的爬虫方式是先初始化url(种子),然后通过python或者nodeJS等脚本语言打开url进行页面的下载和存储,然后将下载的页面内容进行解析,解析完成后将抽取的内容保存到数据库中,但是通用的爬虫存在以下缺点:

1. 噪音多,表现为不相关内容过多,而且提取文本内容较为耗时

2.信息密度低,无联系,因为知识通过初始化的url种子进行爬取,相互之间联系不大;

3.结构简单化,

2.9.2 深度爬虫

深度爬虫是指在通用爬虫的基础上增加了以下功能:

1.link分析,网页权重计算

2.URL权重队列 

但是深度爬虫的实现存在以下四个难点:

1.高效算法去重( bloom filter)

2.表单验证(校验码) ( OCR)

3,正文抽取( vips, dom特征计算和缓存)

4,Ajax如何解析(webkit),例如新浪api受限,一次只能采集500粉丝,历史微博数据只能采集最新的200条 前期被封ip,账号。用代理ip采集(代理算法)目前这个方法也快撑不住了 如何实时采集微博(通过马甲),新浪有“2亿”用户,如何能采集完,僵尸粉怎么过滤? 登入的两种方式:1.使用自动登录的方式获得网页内容。2.使用cookie(人工申请)的方式获得网页内容

2.10 本章小结

    本章介绍了舆论分析管理系统所用到的相关技术.

3  系统的需求分析

需求分析是一个项目的开端,也是项目建设的基石。在以往建设失败的软件项目中,80%是由于需求分析的不明确而造成的。因此一个项目成功的关键因素之一,就是对需求分析的把握程度。作为需求分析人员,必须重视需求分析的作用,采用必要的手段和方法进行需求调研,只有这样才能切切实实地把握用户的需求和方向,才能在将来的功能界定、开发范围上起到指导监理作用。

3.1 系统的总体需求概述

随着国内信息化的不断发展,政府机关部门也在开始使用信息化的手段进行舆情信息的管理,相比传统的舆情信息手段减少了人力资源的使用,大大的节约了资源以及政府资金,对建设服务型的政府有着重要的作用,通过对信息化的建设以及管理使得政府的舆情信息的建设显得尤为的重要,采用信息化的手段进行舆情信息的控制,避免了传统的调查问卷的方式进行舆情信息的监控管理,实现了对舆情信息的统一管理,可以舆情信息监控关键的更加的有效稳定,传统的调查问卷的方式覆盖的范围小,效率低使用大量的人力和物力但是效果甚微,所以传统的调查问卷的方式已经不能,适应现代化政府建设的需求,现代化的服务型政府要进行信息化的建设才能更好的对广大人民群众进行服务。同时,在平台中形成并建立一套基于工作效率及工作质量交叉监管的考核体系,定期形成考核指标,并借以促进平台有序发展和保证咨询投诉问题切实得以落实和解决。舆情信息控制规范管理,在舆情信息的控制上实习统一的分析管控管理,在进行数据信息的管理以及政府咨询信息方面建立统一的舆情信息的管控方式,在进行数据管理以及规范性管理上都是进行信息化的管理方式。

为政府的舆情信息的监控建立统一的数据建模,通过统一的数据建模的方式进行管理,实现对数据信息以及管理信息的统一分析,实现了对舆情信息的进一步的分析操作管理实现了对统一的数据信息管理操作。在建立统一的数据管理平台上方面进行采用当下先进的技术进行信息化的管理,实现了数据信息进行的快速搭建以及管理,在不同的方式以及管理上实现了对数据信息的统一管理支撑,在进行统一管理方式上实现了对数据以及管理新的统一管理操作。

在进行数据的处理以及数据的审核上进一步的完善了舆情信息的收集管理,在进行处理以及管理上可以实现统一的数据信息的统一管理,在进行统一管理上实现数据信息的采集以及分析预测,在不同的信息管理方式上实现对数据信息的管理,实现对数据信息以及舆情管控信息的统一管理,在不同的管理方式上以及管理的体系上进行管理操作。

舆情信息的管理操作进行统一分析,实现数据的统一的数据信息管理上在系统的统一上对数据进行规范的管理[9]。本系统将采用采用三层的数据架构模式对信息系统进行设计规划,通过对信息系统的数据管理传输以及统一的管理操作,实现了对监控系统的统一管理,在不同的数据之间信息进行传输管理,实现了对系统信息的统一操作信息的数据规划处理,对信息的处理在底层对数据的响应在中层,对用户的请求在上层,实现三层架构的数据互动信息,对数据的管理操作提供了统一的管理操作是实现了对数据信息的统一管理

3.2.1 按周期分 

    舆情分析产品的提供周期需要根据具体政府部门的舆情压力而定。 舆情日报:每个工作日一期。每天定时对舆情热点进行筛选,对相关话题进行梳理和深度加工,凝练成“标题+摘要”的形式,内容包括当日舆情热点、媒体关注度、网民主要观点等,以短信或电子邮件的形式发送,有利于用户及时掌握每天舆情。  舆情周报/月报:每周/每月一期。定期提供每周/每月舆情综述、媒体关注度、舆论主要关注点、网友观点以及处置建议等,有利于用户准确、全面了解网络舆情,并能为决策者提供切实有效的应对建议。  舆情专报:不定期出版。采用“专事专报”的形式,针对某一重大突发事件提供阶段性或全过程舆情监测与分析研判,包括舆情概要、事件描述、媒体关注度、舆论主要关注点、网友观点以及处置建议等。

3.2.2 按功能分 

日常监测:将网络舆情监测作为一项日常工作不间断进行,随时掌握网络舆论的导向、特点和趋势,一旦发现有不利于社会稳定的重大网络舆情,可以及时反馈到有关部门。   突发事件监测:突发事件社会影响大、给决策者思考的时间短,如果不及时准确获得最新信息并加以判断处理,产生的后果非常严重。对于突发事件,需要迅速对相关网络舆情进行监测,及时有效地汇集和分析舆情信息。

3.2.3 按服务范围分 

普适类产品:为多个政府部门提供的舆情报告,一次形成、多用户使用,目前最具代表性的是人民网公开发行的舆情刊物《网络舆情》。这种产品的优点是可以充分发挥舆情报告的使用价值,降低监测成本。 

定制类产品:为某政府部门定制的舆情报告,这种产品的优点是非常有针对性,能提供密切相关的舆情,但投入的资源较多。  

3.2.4 按服务手段分 

根据网络舆情分析机构和舆情需求部门的实际情况和技术条件,可以选择以下几种服务手段之一: 

PC客户端服务系统:以技术平台为基础,为用户提供PC定制监测系统,用户不需单独部署舆情采集服务器,只需通过帐号、密码登录客户端服务系统的定制平台,自主设置关键词,即可全面监测相关舆情。

手机舆情服务系统:实现舆情监测PC用户端和手机浏览端的无缝链接,弥补了舆情监测在空间和时间上的死角。用户可以自助设置监测关键词,自助设定发送时间,自助设定发送手机号。 

电子邮件:通过电子邮件主动、快速发送word文档或PDF文档的舆情分析报告。  纸质报告:对文字进行整理、排版,形成内部刊物并打印装订成册,通过专人送阅。

3.2 功能性需求分析

 

PS:

获得更好的阅读体验请访问http://www.itbiyesheji.com/index.php/2019/04/03/基于大数据的舆论分析系统/

展开阅读全文

没有更多推荐了,返回首页