互联网舆情监测开发平台

互联网舆情监测开发平台




一、简介


互联网舆情监测市场已经发展了一段时间了,企业口碑监测服务也越来越热门。很多企业拟开展类似的业务,苦于舆情监测的技术门槛较高,企业无法投入足够的研究性力量进行相关技术的探索。

灵玖软件: www.lingjoin.com

互联网舆情监测开发平台急相关企业之所急,融合了互联网深网采集、自然语言理解、网络搜索和文本挖掘的研究成果,提供了用于技术二次开发的子系统和API接口,可运行在Windows,Linux,Android,Maemo5,
FreeBSD等不同操作系统平台。


开发者只需要利用该平台,就可开发出种种丰富的舆情口碑业务功能,实现具有市场竞争力的舆情监测系统或服务。


二、主要架构



【注】采集可通过手工配置实现分机、分库、分表存储;索引可以通过编写脚本实现增量式扩展(inserttime为增量标识字段)。


三、部署方法


3.1采集器的部署



采集器可以根据需要部署在一台或多台机器上;同一台机器也可以部署多个采集器软件,普通性能机器就可满足。具体参考如下:



图1采集器工作流程



图2采集器基本配置文件SiteGather.xml



图3采集定向网站任务数据库表配置示例elint_web_siteconf



图4采集器运行界面截图(点击run_gather.bat运行采集器)



图5采集文件结果截图



图6采集文章结果数据库表示例elint_web_docinfo



图7采集跟帖结果数据库表示例elint_web_multiinfo

3.2搜索器的部署

搜索器建议部署在一台机器上,最好具备4G以上内存、2T以上硬盘。利用DBSearch_packet目录下对应的文件,搭建数据库搜索引擎服务的步骤(Windows下支持ODBC方式读取数据库,Linux下目前支持MySQL与Oracle):


第一步:配置数据库读取参数


配置数据库信息IndexFile\dbConf.xml


配置信息如下所示:



MaxMem为系统建立索引时可以分配的最大内存,内存越大,建立索引越快,但是最大不能超过2GB,同时,需要结合机器特点,内存小的机器,分配大内存往往导致建立索引不成功。


注:为保障数据库连接成功,需要在索引服务器(可以和数据库服务器不是同一台机器)上,在“系统配置/管理工具”中建立连接该数据库的ODBC。


第二步:配置数据库字段信息列表


配置字段信息,结果写入index\FieldInfo.txt


第三步:建立字段信息文件和索引文件


执行BuildIndex.bat。


第四步:启动搜索服务


执行StartServer.bat启动搜索服务。


第五步:检查搜索结果


启动JZSearchAgent.exe,输入检索语句,检查搜索结果是否正常。

转载于:https://my.oschina.net/u/944984/blog/124424

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值