文本内容分析和智能反馈(1)-分析设计

1、业务背景

某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。

提交后,专家进行审核,某几个专家针对某个行政区划。

对审核不通过的内容,专家会给出修改建议

业务量较大,单次审核周期一般在1~3个工作日。

如果能够提高一次通过率,将直接提高系统效率。

对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。

2、业务分析

有几件事情可以做:

  1. 分析历史审批意见,对审批意见分词,做词频统计。
  2. 分析历史审批意见,特别是审批不通过的审批意见,结合当前应用场景,提取关键属性,得出最高频的审批意见,以恰当形式呈现给用户。
  3. 结合应用场景,依据属性做关联分析或聚类分析,将分析结果呈现给填报用户。

3、功能设计

3.1、数据预处理模块

对审批意见分词,按如下关键属性保存分词结果。
关键属性包括:业务板块、行政区划、时间段(以半年为单位做离散化处理)、文档编号、专家、 词、 词频。

增量分析。

3.2、各纬度汇总

实现如下函数:

List<Map<String,Long>> getTopSuggest(Map<String,Object> dimensions)

依托预处理模块得到的数据,传入不同纬度的组合,返回词频最高的审批意见。

需注意无效词的过滤。

3.3、关联分析

获得高频出现的五元组、四元组、三元组、二元组,具体视结果质量而定。

找到恰当的阀值。

3.4、聚类分析

定义词的距离,进行聚类分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值