舆情系统设计方案

1 篇文章 0 订阅
1 篇文章 0 订阅

1.爬虫抓取环节

需要解析来源很多种类的不同网站,每个网站所需要抓取信息的html,css格式大不相同,这个时候需要构造一个通用模版类来解析一部分网站模版的需求,然后再构造一个独立解析的后台系统供编辑使用创建需要解析的模版,然后爬虫系统自动读取后台要解析的独立模版来解析对应的网站内容

2.爬虫监控环节

监控环节包括监控每个种类每个爬虫抓取的数据量,以及监控爬虫的错误日志信息,部分问题可采用自动纠错机制来解决。监控环节还需要增加预警机制,对于未抓取到的数据爬虫和出现当天大量抓取数据的爬虫进行实时预警来通知开发人员查看

3.清洗环节

清洗环节基本要做的内容主要是将垃圾信息过滤,重复信息删除,相同信息合并,敏感信息标敏等等。清洗环节在整个数据汇总层面当然也少不了对该程序的监控预警等功能

4.分析环节

分析环节应该是在整个系统当中最需要注重稳定和效率的环节,因为分析的结果和效率是用户可看的,整个数据的结果集也是相当重要。首先通过搜索引擎的搜索对数据进行分析固化,分析结果为空的要进行纠错或重试处理,错误日志收集,失败请求次数收集,分析数据量收集,用户关键字收集等操作来建设更稳定的系统设计方案


以上内容主要是想表达系统监控,自动纠错,日志收集在整个系统环节都有举足轻重的地位


  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值