Python
文章平均质量分 62
coder1479
Coding Architect.
展开
-
XPath的死角
本文介绍了一个XPath无法准确定位文本节点的问题,并简单说明了LXML的解决方案。原创 2022-07-16 15:42:28 · 365 阅读 · 0 评论 -
Python学习笔记——argparse中的action=store_true用法
Python的命令行参数解析模块学习。原创 2022-05-22 15:31:28 · 3411 阅读 · 0 评论 -
pytorch笔记——torch.randperm用法
randperm用法。原创 2022-05-18 20:27:43 · 2052 阅读 · 0 评论 -
Torchvision中datasets.MNIST设计方法分析
本文分析了torchvision中MNIST数据集的设计思路,学习如何设计自己的数据集模块。原创 2022-03-27 15:41:15 · 3694 阅读 · 0 评论 -
使用pandas对超大csv文件进行快速拆分
本文介绍如何利用pandas对超大CSV文件进行快速拆分。原创 2022-03-23 19:40:41 · 7079 阅读 · 0 评论 -
ModuleNotFoundError: No module named ‘lzma‘解决方案
ModuleNotFoundError: No module named ‘lzma’的解决方案,在CentOS 7上测试通过的。原创 2022-03-20 23:59:38 · 11490 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(四)
本文解析get_value_xpaths方法。这个方法从DOM树中获取包含真值(标注数据)的Xpath列表。原创 2022-03-05 21:37:14 · 1039 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(三)
本文解析get_field_xpaths源码,这个方法会把每个网页中抽取的值对应的xpath表达式构造出来。原创 2022-03-04 20:32:53 · 244 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(二)
这篇文章主要分析负责加载SWDE数据集中的html文件和标注数据的方法。原创 2022-03-03 19:47:40 · 253 阅读 · 0 评论 -
MarkupLM源码解析之数据准备(一)
MarkupLM网页数据预处理源码解析。原创 2022-03-02 22:46:11 · 465 阅读 · 0 评论 -
如何用Python自动获取HTML元素的Xpath路径
简单介绍了如何利用python自动获取HTML元素的Xpath路径表达式。原创 2022-03-01 22:00:27 · 2449 阅读 · 12 评论 -
lxml.html.clean.Cleaner之page_structure参数的作用
在使用lxml.html.clean.Cleaner时,通常看到的代码片段都会将cleaner.page_structure设置为False,为什么呢?原创 2022-02-28 22:07:11 · 405 阅读 · 0 评论 -
(翻译)Google开源的Abseil简介
Google开源了内部广泛使用的软件,absl的python版本,在很多Google开源的项目中都能看到它的影子。翻译 2022-02-27 23:02:16 · 726 阅读 · 0 评论 -
Python:multiprocessing示例代码在Windows环境无法运行的解决方案
记录在Windows环境下使用multiprocessing模块遇到的问题。原创 2022-02-26 21:01:08 · 3338 阅读 · 0 评论 -
(翻译)Lxml教程之文本处理
lxml是处理XML和Html的强大工具,但对于文本处理的方式和常见的DOM不同,特翻译相关文档,并基于个人理解,增加部分注释。翻译 2022-02-25 17:51:09 · 657 阅读 · 0 评论 -
数据清洗:用一行Python代码去掉文本中的各种符号
在搜集了很多文本语料之后,会开始漫长的数据清洗过程,用好python标准库,可以方便地解决很多问题。原创 2022-02-24 19:00:38 · 7122 阅读 · 0 评论 -
如何使用Python优雅地去除HTML中的换行回车等控制字符
网页数据的预处理是非常复杂的问题,幸运的是,已经有很多开源软件能够很好地处理这些问题了,比如用unicodedata解决去除网页的各种换行和空格问题。原创 2022-02-23 20:02:38 · 2569 阅读 · 0 评论