一种基于文本相似度的网页新闻标题自动抽取算法
何春辉
【摘
要】
随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和
网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率
和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题
自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页
的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且
平均
F1
值达到了
97.58%
﹒
【期刊名称】
湖南城市学院学报(自然科学版)
【年
(
卷
),
期】
2019(028)001
【总页数】
4
【关键词】
网络爬虫;新闻标题抽取;调和相似度
信息抽取
[1]
的核心目标是从大量的载体中快速准确地抽取出对用户有价值的少
量信息﹒随着
Web
技术的发展,人类的日常生活方式已经发生了巨大的变化
﹒这些变化使得许多传统的纸质载体都被电子载体取而代之,许多信息都通过
互联网上的网页来传递和展示,而网页新闻的标题通常会被认为是一张网页的
“眼睛”,它能较好地揭示网页主题信息,因此,对网页新闻的真实标题进行
自动抽取是一项非常有意义和有挑战性的任务﹒考虑到目前学术界和工业界还
没有完全成熟的通用解决方法,故本文提出了一种基于文本相似度的网页新闻
标题自动抽取算法,它可以准确地抽取网页新闻真实标题,为网页新闻标题的
抽取提供了新途径﹒
1
研究背景