文本密度 php,基于文本密度模型的Web正文抽取

1引言随着互联网的快速发展,Web数据已覆盖经济、政治、文化等现实世界的各个领域,构成很多应用的重要信息来源.因包含大量的与正文无关的导航信息、广告文字、版权说明和相关链接等内容,网页数据呈现结构混杂且多具有异构和动态的特点.Gibson等[1]估计布局外观因素构成互联网40%50%的内容,并以每年6%的速度持续增长.网页正文抽取成为大量应用必不可少的支撑技术.个人数字终端的应用中,为便于小屏幕浏览网页,抽取网页正文内容以调整页面大小被广泛采用[2].RSS推送、信息检索、问答系统等领域使用正文抽取排除无关词的干扰,能有效提高系统的性能[3].自然语言处理领域构建语料库消耗大量的人力、物力和财力,抽取网络中海量的、真实的文本为自动构建语料库提供有效途径[4].目前网页正文抽取常用的方法主要有基于模板、基于机器学习和基于统计3类方法.手工编写规则形成模板是正文抽取最早的方法.Adelberg[5]查找HTML启发信息抽取固定模板的网页正文.Kang等[6]清除过剩标签,使用特定模式匹配抽取新闻篇章.自动检测模板的方法随之发展起来.杨少华等[7]提出Compute_CTokens和Construct_Template两个算法来检测新的未知模板.Kohlschtter等[8]分析少量的表层文本特征探测模板.机器学习被广泛用于正文抽取.Song等[9]采用神经网络和支持向量机区分网页块的重要性,发现超链接数在42个特征中最具区分能力.Gibson等[10]使用条件随机场标记网页的标签序列是正文或非正文.Ziegler等[11]从文本块中抽取语言和结构特征,采用粒子群优化算法学习特征阈值.Pasternack等[12]提出基于字符序列统计数据而非特定的HTML标签.统计方法抽取正文也被深入研究.Finn等[13]提出BTE(BodyTextExtraction)算法,将网页作为字和标签序列,抽取包含词最多和标签最少的单一、连续的内容.Pinto等[14]提出DSC(DocumentSlopeCurves)算法,采用窗口改善Finn的方法实现多正文抽取.Mantratzis等[15]提出LQE(LinkQuotaFilters)算法,通过超链接识别链接目录和导航元素.Debnath等[16]提出FE(FeatureExtractor)算法,选择具有一定特征的文本、图像和脚本代码的内容块.Gottron等[17]提出CCB(ContentCodeBlurring)算法,内容块的选择相同格式的源代码字符序列.Weninger等[18]提出CETR(ContentExtractionviaTagRatios)算法,计算HTML文档行的文本-标签比和邻近行的变化率,使用聚类的方法抽取正文.面对Web技术的不断更新,现有抽取网页正文的算法局限性逐渐显现.网页动态内容增多,基于模板的方法面临网站结构繁多且多变的挑战,手动编写规则或自动发现新模板及模板维护将是巨大的工程.机器学习的分类器局限于结构类似于训练样本,当网页结构发生较大变化时,需重新标注训练集和重复训练.基于统计方法无需维护模板或标记数据集,算法执行效率高,对不同类型数据具有较好的适应性,缺点是综合利用多特征信息的能力不强,抽取正文的准确率较低,同时,随着CSS表单的广泛使用,传统采用如等HTML标签为启发信息的算法性能极大降低.本文是面向Web语料挖掘技术研究的组成部分,网页正文内容界定为新闻报道主题内容的全部字符.网页中相关导航、广告文字、版权说明和网页评论都属于噪声部分.通过对不同类型新闻网页分析,存在两

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BERT(Bidirectional Encoder Representations from Transformers)是一种预训练模型,可以用于文本特征提取。BERT模型通过在大规模文本数据上进行无监督的预训练来学习通用的文本表示,在此基础上可以进行各种下游任务的微调或特征提取。 要使用BERT模型抽取文本特征,首先需要将输入的文本转换为BERT所需的格式。对于英文文本,可以使用WordPiece标记化方法将文本拆分为词片段,并添加特殊的标记(如[CLS]和[SEP])来表示句子的开始和结束。对于中文文本,可以使用字级别的标记化方法。 然后,将标记化后的文本输入到BERT模型中,获取模型的隐藏状态。BERT模型通常有多层Transformer编码器,每层都会输出相应的隐藏状态。可以选择使用最后一层的隐藏状态,或者将多个层的隐藏状态进行融合,得到最终的文本特征表示。 一种常用的方法是将最后一层的隐藏状态与特定位置的标记(如[CLS])进行连接,得到表示整个句子的特征向量。这个特征向量可以用作文本分类、句子相似度计算等下游任务的输入。 除了最后一层的隐藏状态,BERT模型还可以提供其他层的隐藏状态,这些隐藏状态可以更细粒度地表示文本的各个方面。可以根据具体的任务需求选择相应的隐藏状态进行特征提取。 需要注意的是,由于BERT模型参数较多,对大规模文本数据进行完整的特征提取可能会比较耗时。为了提高效率,可以使用批量化技术对多个文本样本进行并行处理,或者使用模型压缩等方法减少模型的大小和计算量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值