信息抽取
文章平均质量分 72
coder1479
Coding Architect.
展开
-
XPath的死角
本文介绍了一个XPath无法准确定位文本节点的问题,并简单说明了LXML的解决方案。原创 2022-07-16 15:42:28 · 418 阅读 · 0 评论 -
WebVTT中的文本轨道(Text Tracks,TT)到底是什么鬼?
WebVTT,全称是The Web Video Text Tracks Format,意思是网络视频文本轨道格式。那么到底什么是文本轨道(Text Tracks)呢?这篇文章希望一探究竟。原创 2022-03-25 22:07:20 · 1468 阅读 · 0 评论 -
如何在CentOS 8上安装FFmpeg
本文记录了在CentOS 8上使用DNF/YUM安装FFmpeg的操作过程。原创 2022-03-22 21:51:42 · 3249 阅读 · 0 评论 -
网页正文抽取(三)——boilerpipe算法
Boilerpipe是一个非常优秀的网页正文抽取库,在抽取新闻和博客正文时,准确率非常高,基本开箱即用,著名的信息抽取工具Tika也使用了Boilerpipe作为网页内容自动提取的第三方库。原创 2022-03-16 20:06:17 · 1866 阅读 · 0 评论 -
MarkupLM源码解析之Xpath Embedding
本文解析MarkupLM的Xpath嵌入生成原理。原创 2022-03-07 22:41:11 · 655 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(四)
本文解析get_value_xpaths方法。这个方法从DOM树中获取包含真值(标注数据)的Xpath列表。原创 2022-03-05 21:37:14 · 1087 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(三)
本文解析get_field_xpaths源码,这个方法会把每个网页中抽取的值对应的xpath表达式构造出来。原创 2022-03-04 20:32:53 · 279 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(二)
这篇文章主要分析负责加载SWDE数据集中的html文件和标注数据的方法。原创 2022-03-03 19:47:40 · 304 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(一)
MarkupLM网页数据预处理源码解析。原创 2022-03-02 22:46:11 · 516 阅读 · 0 评论 -
如何用Python自动获取HTML元素的Xpath路径
简单介绍了如何利用python自动获取HTML元素的Xpath路径表达式。原创 2022-03-01 22:00:27 · 2744 阅读 · 12 评论 -
lxml.html.clean.Cleaner之page_structure参数的作用
在使用lxml.html.clean.Cleaner时,通常看到的代码片段都会将cleaner.page_structure设置为False,为什么呢?原创 2022-02-28 22:07:11 · 478 阅读 · 0 评论 -
(翻译)Lxml教程之文本处理
lxml是处理XML和Html的强大工具,但对于文本处理的方式和常见的DOM不同,特翻译相关文档,并基于个人理解,增加部分注释。翻译 2022-02-25 17:51:09 · 705 阅读 · 0 评论 -
数据清洗:用一行Python代码去掉文本中的各种符号
在搜集了很多文本语料之后,会开始漫长的数据清洗过程,用好python标准库,可以方便地解决很多问题。原创 2022-02-24 19:00:38 · 7565 阅读 · 0 评论 -
如何使用Python优雅地去除HTML中的换行回车等控制字符
网页数据的预处理是非常复杂的问题,幸运的是,已经有很多开源软件能够很好地处理这些问题了,比如用unicodedata解决去除网页的各种换行和空格问题。原创 2022-02-23 20:02:38 · 2749 阅读 · 0 评论 -
Web信息抽取——SWDE数据集简介(翻译)
SWDE(Structured Web Data Extraction, 结构化Web数据抽取)是用于结构化Web数据提取的大规模真实数据集,是从事网页信息抽取算法研究必须使用的一个数据集。这篇文章翻译了SWDE的说明文档,包括数据集内容、数据概要、标注格式说明、下载地址、数据标注扩展等。翻译 2022-01-29 19:47:17 · 1605 阅读 · 0 评论 -
网页正文抽取(二)——jusText算法
jusText算法是一种优秀的网页正文提取算法,作者是Jan Pomikálek。该算法能够删除 HTML 页面中模板内容(如导航链接、页眉和页脚),自动保留正文句子,准确率很高,适合用于创建Web语料库。这篇文章描述了jusText算法的基本原理和实现步骤,并分析了算法在提取中文网页时的问题,给出了改进建议。原创 2022-01-22 23:15:35 · 4880 阅读 · 0 评论 -
网页正文抽取(一)——基于行块分布函数的算法
从原始HTML网页准确地抽取正文信息是构建海量、高质量语料的关键环节。原创 2022-01-11 21:21:32 · 1909 阅读 · 0 评论