基于搜索引擎的新闻搜索的弊端及搜索优化需求设计

随着当今社会信息化程度的不断提高,网络数据信息已经爆炸式增长,同时,庞大的Web新闻信息资源在有效利用方面有了长足发展,但是,网页承载量过大,而且信息极其繁复,普通用户在Web新闻信息资源的高效检索和利用上存在着诸多不足——以百度新闻为例:

1普通用户不能对有效的新闻信息及时检索、提取、保存以及个性化处理,造成一定量有效的新闻信息资源的流失;

(2)纯手工搜索、分类和保存大量百度新闻信息搜索存在着工作量大、重复率高、效率低、时效性差和错误率不可把控等弊端;

(3)多条件搜索难以实现,例如:在新闻搜索结果中精确某年某月某日的定点查询;搜索匹配另外的个性需求的新闻搜索的实现;

(4)只提供了匹配新闻标题和新闻内容的搜索匹配,不能实现新闻信息的来源筛选,从而造成了搜索到的新闻信息数量大,但是同样存在新闻信息的重复多相对较高。

web信息检索解决方案的实现方法,大多是面向于商业信息提取、文献自动检索、科研人员等专业领域的应用研究,对于普通用户需求(社会公众、非专职人员以及专业应用研究者)研究相对较少。

需求:设计一个面向于普通用户的提取检索各搜索引擎新闻信息的基础检索提取模型,实现一个基于正则匹配式匹配提取百度新闻搜索的Web新闻信息HTML表单关键新闻标签信息的算法,利用正则表达式模糊性匹配提取出需要的新闻信息,经过数据噪音清洗得到用户需要的准确新闻信息,并根据用户的需要定制个性的信息提取方案和通过设置新闻信息的二次过滤条件使提取的信息更加有效和快速,从而为普通用户提供一个更经济、更个性和更实用的新闻信息检索、查看、筛选和本地保存方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

闲谈共视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值