dom原始解析html,DOMDocument解析HTML（而不是正则表达式）

weixin_39683526

于 2021-07-02 06:41:29 发布

阅读量144

点赞数

文章标签： dom原始解析html

由于信息有限，几乎没有任何示例，我发现PHP.net上的文档不太好，大多数细节都基于解析XML。

$dom = new DOMDocument;

libxml_use_internal_errors(true);

$dom->loadHTMLFile('http://www.nu.nl/internet/1106541/taalunie-keurt-open-sourcewoordenlijst-goed.html');

libxml_clear_errors();

$recipe = array();

$xpath = new DOMXPath($dom);

$contentDiv = $dom->getElementById('page'); // would have preferred getContentbyClass('content') (unique) in this case.

# title

print_r($xpath->evaluate('string(div/div/div/div/div/h1)', $contentDiv));

# content (this is not working)

#print_r($xpath->evaluate('string(div/div/div/div['content'])', $contentDiv)); // if only this worked

print_r($xpath->evaluate('string(div/div/div/div)', $contentDiv));

出于测试目的，我试图获取nu.nl新闻文章的标题(h1标签)和内容(HTML)。

正如你所看到的，我可以得到标题，虽然我对评估字符串并不满意，因为它恰好是该div级别上唯一的h1标记。

2011-09-06

Dennis

你为什么不在xpath字符串中搜索'h1'？ –

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39683526

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

8.JavaScript（正则表达式）

子衿

10-04

479

## JavaScript： * 概念：一门客户端脚本语言 * 运行在客户端浏览器中的。每一个浏览器都有JavaScript的解析引擎 * 脚本语言：不需要编译，直接就可以被浏览器解析执行了 * 功能： * 可以来增强用户和html页面的交互过程，可以来控制html元素，让页面有一些动态的效果，增强用户的体验。 * JavaScript发展史： 1. 1992年，N...

domdocument php 扩展_使用PHP的HTML DOMDocument解析HTML

weixin_28868927的博客

03-08

206

如果你想得到：文本在标签内class="text"这本身里面有class="main"我会说最简单的方法是不使用DOMDocument::getElementsByTagName-它将返回所有具有特定名称的标签(虽然您只需要其中一些标签)。相反，我会使用DOMXpath该类在您的文档上使用XPath查询。例如，应该执行以下操作将HTML字符串加载到DOM对象中，并实例化DOMXpath该类：$ht...

参与评论您还未登录，请先登录后发表或查看评论

PHP中使用DOMDocument来处理HTML、XML文档

硬核项目经理

05-07

291

PHP中使用DOMDocument来处理HTML、XML文档其实从PHP5开始，PHP就为我们提供了一个强大的解析和生成XML相关操作的类，也就是我们今天要讲的 DOMDocument ...

HTML DOM Document 对象详解

Hengistchan的博客

01-09

1704

本文转载于 https://segmentfault.com/a/1190000000660947 在浏览器中，与用户进行数据交换都是通过客户端的javascript代码来实现的，而完成这些交互工作大多数是document 对象及其部件进行的，因此document对象是一个比较重要的对象。 document对象概述 document对象是文档的根节点，w...

php dom 解析html,使用PHP的HTML DOMDocument解析HTML

weixin_39637614的博客

06-17

376

白板的微信如果你想得到：文本在标签内class="text"这本身里面有class="main"我会说最简单的方法是不使用DOMDocument::getElementsByTagName-它将返回所有具有特定名称的标签(虽然您只需要其中一些标签)。相反，我会使用DOMXpath该类在您的文档上使用XPath查询。例如，应该执行以下操作将HTML字符串加载到DOM对象中，并实例化DOMXpath该...

PHP使用DomDocument抓取HTML内容

xyzhaopeng的专栏

07-22

2万+

有时候会有需要从一个HTML页面来分离出你需要的一些数据来进行处理。当然自己分析文件肯定可以，但是比较快速且方便的是使用正则表达式或者DOM。鉴于正则表达式我不熟悉，所以我打算使用DOM来完成。先谈谈我的需求，我要从一个HTML页面的一个表格中提取数据并且将这个数据整理出来加入

php正则匹配html中带class的div并选取其中内容的方法

10-24

值得注意的是，由于HTML的复杂性和非严格规范性，使用正则表达式来解析HTML并不是最佳实践，更推荐使用DOM解析器如PHP的DOMDocument类来处理HTML内容。但在一些简单场景或者开发者了解并能够控制HTML结构时，正则...

asp 去掉html中的table正则代码函数

10-30

解析PHP正则提取或替换img标记属性

10-27

PHP是一种广泛使用的服务器...在处理更加复杂的HTML或需要更精确控制的情况下，使用专门的HTML解析器（例如DOMDocument等）会是更好的选择。这些解析器能以更结构化的方式处理HTML文档，可以更准确地导航和修改文档树。

全面解析DOM操作和jQuery实现选项移动操作代码分享

10-22

### DOM操作和jQuery实现选项移动操作知识点解析 #### 1. DOM操作基础 DOM（Document Object Model）是文档对象模型的缩写，它是一种用于HTML和XML文档的编程接口。通过DOM，我们可以使用JavaScript或其他编程语言...

html代错误的是,用html解析html代码错误问题

weixin_28890693的博客

06-20

280

但是，当我写的代码，$url = "http://dizli.com/dizli/db.html";$dom = new DOMDocument();$html = $dom->loadHTMLFile($url);$dom->preserveWhiteSpace = false;$tables = $dom->getElementsByTagName('table');$tr ...

php解析html dom节点树

Free_Program_1314的专栏

12-19

5702

不得不感叹用DOM直接解析HTML DOM树的灵活和强大，因为基本的HTML元素就是那么几种常见的，再加上ID属性或者CLASS属性之类的。。在解析html文件时，完全可以用正则中脱离出来，毕竟HTML文件中存在大量相似的模式，而且代码看上去功能比较显而易见，当然正则是非常强大的，应用的领域也更广。。代码如下： <?php //关闭载入包含js时的警告提示 err

正则匹配HTML标签（div，p等~~）适用于replace

热门推荐

小不点的博客

01-31

2万+

var newMsgHandle =whatSay.replace(//g, '') 上面是一个字符串中替换掉所有div标签的小例子，上面的征辟适用于所有html标签的匹配，只要将替换即可简单实用有帮助的点个赞

用HTMLDocumentClass分析Html代码（以及读取HtmlElement所有属性方法）

wsxqaz的专栏

03-06

1万+

大家可能经常会需要分析一段Html代码，有的人可能会用WebBrowser，这个方法不错，其实微软还提供了另一个组件，mshtml（引用Microsoft.mshtml，这个可能有好几个大家记得引用Framework目录下的那个），这个东西提供分析html代码的方法，而且用起来非常的方便。 HTMLDocumentClass doc = new HTMLDocumen

DOM解析html

weixin_30469895的博客

06-12

399

通过DOM的方法，把HTML全部（元素（标签）、文本、属性）都封装成了document对象。　　* DOM解析HTML(可以使用浏览器解析HTML)。　　* 浏览器DOM解析HTML：　　　　DOM会把HTML解析成树状结构。　　　注意：Node对象是Document、Element、Attribute、Text四个对象的父类，四个对象都属于节点对象。 * DHTML不是一种...

智慧建造总体策划方案（76页）.pptx

11-02

智慧建造总体策划方案（76页）

基于 Python2.7 和 PyQT4 开发的 modbus 通信采集软件

11-02

基于 Python2.7 和 PyQT4 开发的 modbus 通信采集软件，已在 windows、deepin linux 和树莓派上测试！

LLC simulink仿真《slx模型文件》

11-02

LLC simulink仿真《slx模型文件》 LLC谐振转换器是一种高效的直流-直流(DC-DC)电源转换器，因其独特的谐振特性而得名。在电力电子领域，LLC仿真对于理解和优化这种转换器的性能至关重要。Simulink是MATLAB环境下的一个强大工具，用于建立和仿真复杂系统，包括电力电子系统。标题“LLC simulink仿真”指的是使用Simulink进行LLC谐振转换器的建模和仿真。通过Simulink，工程师可以模拟LLC转换器在不同工作条件下的行为，如负载变化、输入电压变动以及控制策略的影响。 **LLC电路的基本原理：** LLC谐振转换器结合了升压（Boost）、降压（Buck）和串联谐振（Series Resonant）三种拓扑结构的特点。它由主开关、副开关、电感、电容和二极管组成。谐振电容和电感形成谐振回路，使得开关器件能在零电压或零电流条件下切换，从而降低开关损耗并提高效率。 **仿真过程：** 在Simulink中，首先需要建立LLC转换器的模型，包括各个元件的参数设定。这包括主开关和副开关的开关频率、谐振电容和电感的值、二极管的反向恢复特性等。然后，设

krb5-devel-1.15.1-55.el7_9.i686.rpm