powershell提取html字段,使用powershell以HTML格式检索文本

最新推荐文章于 2021-06-26 07:28:11 发布

小天1213

最新推荐文章于 2021-06-26 07:28:11 发布

阅读量499

点赞数

文章标签： powershell提取html字段

本文介绍了如何使用PowerShell结合HtmlAgilityPack库来解析HTML，特别是提取``标签的`href`属性。通过安装必要的模块和理解XPath及正则表达式，可以方便地从HTML文档中抓取所需内容。示例代码展示了从文件或网页加载HTML，并提取特定链接的子字符串。

摘要由CSDN通过智能技术生成

让这个问题如此有趣的原因在于,HTML看起来和气味就像XML一样,后者由于其良好的行为和有序的结构而具有更好的可编程性.在理想的世界中,HTML将是XML的一个子集,但现实世界中的HTML显然不是XML.如果您将问题中的示例提供给任何XML解析器,它将会避免各种违规行为.话虽如此,使用单行PowerShell可以实现所需的结果.这个返回href的全文：

Select-NodeContent $doc.DocumentNode "//a/@href"

这个提取所需的子字符串：

Select-NodeContent $doc.DocumentNode "//a/@href" "IP_PHONE_BACKUP-(.*)\.zip"

但是,捕获的是开销/设置,以便能够运行那一行代码.你需要：

>安装HtmlAgilityPack以使HTML解析看起来就像XML解析一样.

>如果要解析实时网页,请安装PowerShell Community Extensions.

>了解XPath能够构建到目标节点的可导航路径.

>了解正则表达式,以便能够从目标节点中提取子字符串.

满足这些要求后,您可以将HTMLAgilityPath类型添加到您的环境并定义Select-NodeContent函数,如下所示.代码的最后部分显示了如何为上述单行中使用的$doc变量赋值.我将展示如何根据您的需要从文件或Web加载HTML.

Set-StrictMode -Version Latest

$HtmlAgilityPackPath = [System.IO.Path]::Combine((Get-Item $PROFILE).DirectoryName,"bin\HtmlAgilityPack.dll")

Add-Type -Path $HtmlAgilityPack

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
powershell提取html字段,使用powershell以HTML格式检索文本

让这个问题如此有趣的原因在于,HTML看起来和气味就像XML一样,后者由于其良好的行为和有序的结构而具有更好的可编程性.在理想的世界中,HTML将是XML的一个子集,但现实世界中的HTML显然不是XML.如果您将问题中的示例提供给任何XML解析器,它将会避免各种违规行为.话虽如此,使用单行PowerShell可以实现所需的结果.这个返回href的全文：Select-NodeContent $doc...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。