思通数科舆情系统的构架原理

思通数科大数据舆情

已于 2024-04-17 15:57:05 修改

阅读量1k

点赞数 7

文章标签：算法数据结构数据挖掘神经网络机器学习人工智能深度学习

于 2024-04-17 15:56:49 首次发布

本文链接：https://blog.csdn.net/tzy166666/article/details/137876375

版权

架构设计的目标是为了解决目前或者未来软件系统由于复杂度可能带来的问题。就目前而言，架构设计主要是为了识别、梳理用例模型交互、功能模块实现、接口设计和概念模型设计等涉及到的复杂点，再针对这些复杂点制定处理方案，从而通过设计来增强效用、减少成本，降低复杂度。而就未来而言，系统架构设计将随着业务发展不断演变、完善，以解决未来软件系统由于复杂度可能带来的问题。

模块分析

（1）数据采集

舆情系统中数据采集是本项目的关键构成部分，此部分功能的核心技术由爬虫技术框架构建。目前本项目的数据采集模块已经是一个“爬虫工厂”，这是一个低代码化开发的平台。更准确的说，我们不是在上面开发，而且在上面进行爬虫配置对数据采集抓取。

站点画像：采用模拟浏览器请求技术实现深度和广度抓取算法，对整个站点进行全站扫描、数据储存、特性分析。
自动抓取：有了网站的画像属性，就知道匹配那种采集抓取策略了，大部分网站就能自动抓取就自动识别抓取数据，无需人工干预。
人工配置：有的网站抓取难度大，采用可视化技术将整个站点的标签提取出来给开发工程师，他们将可以快速的对网站的抓取进行配置。我们在采集任何一个网站的时候将会有各种“探头”对网站的结构，广告位，关键性内容，导航栏，分页，列表，站点特性，站点数据量，抓取难易度，站点更新频率，等等。
采集模板：为了简化人工操作，提高工作效率，还提供了爬虫模板。爬虫模板的意义在于，用户遇到一个配置繁琐的站点，不用从头开始，只需要到爬虫模板库里面找类似的模板即可。
数据暂存：如果把数据直接储存到系统大数据库里，一旦有大量采集的脏数据下来就是浪费时间和精力，所有数据都会预演储存一遍，储存完成后会有程序对此核对监测，以免数据字段漏存、错存。
预警：如果在暂存环节发现储存错误，将会及时通过邮件发送对研发工程师提醒，告知错误内容，让其对此修正。