关于构建新闻关键词知识库的一点想法

昨天和周师兄等人一起聊了些本体和语义的话题。结合着我们目前在做的项目,考虑了一下构建新闻知识库的可行性,——从工程实现的角度。
首先说一下在新闻领域新闻关键词具有的一些特征:
第一:新闻的思路是比较清晰的,——我个人觉得,用特征值来描述比较恰当一点。一则新闻,可以分解为5W,什么人,什么时候,在什么地方,做了什么事,为了这么做 AND/OR 这样作会有什么影响。——如果能分析出相应的特征值,对比提取关键词算法会有更好的预期效果。
第二:新闻的频道相关性是很强的,这种相关性主要表现在两个方面,一方面,同一个关键词在不同的新闻领域有不同的意义;另一方面,不同的新闻频道关注的侧重点是不一致的。
第三:新闻存在一个热点问题,而且热点伴随着一个从发生,到引起广泛关注,最终到消失,或者休眠,在一定的条件下又有可能重新被激活为广泛关注。这之间伴随着概念,概念关系的产生与消失,可能再度被使用。

目前假设有各个频道关键词——在一个时间段内——的频度数据,理论上来说,根据新闻共现性可以统计出一个N*N的矩阵,来描述关键词之间的关系强度。利用这些关键词关系强度数据,结合TF-IDF可以让相关性较强的候选关键词浮上来,相对的抑制干扰关键词。

这之间面临的问题主要有以下3个;
第一:历史的统计结果如何应对上文中提到的热点问题;
第二:如何解决数据剧增带来的效率问题;
第三:——这一点和项目相关,目前的绝大部分数据源都是关于搜狐的,而需要处理的是新浪新闻,这两者之间如何切实有效的关联起来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值