发布了一个基于Javascript的html内容提取器

最新推荐文章于 2022-05-08 22:10:11 发布

iteye_11088

最新推荐文章于 2022-05-08 22:10:11 发布

阅读量104

点赞数

分类专栏： Javascript 文章标签： HTML JavaScript 正则表达式单元测试 Google ViewUI

Javascript 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Javascript Html Extractor v0.0.1

当前的版本是 v0.0.1。

项目地址：http://code.google.com/p/javascripthtmlextractor/

该内容提取器主要用于快速提取指定的html字符串中的指定内容。

如有发现问题或有建议，请留言，谢谢。

先看示例：

示例一："<div><p>div1</p></div>".jhe_im("div")   
返回：["<p>div1</p>"]

示例二："<div id='attr_div1'>div1</div>".jhe_ma("div", "id")   
返回： ["attr_div1"]

示例三："<div><p>div1</p></div>".jhe_mt("div")   
返回： ["div1"]

示例四："<div>div1</div><div>div2</div>".jhe_om("div")  
返回： ["<div>div2</div>", "<div>div2</div>"]

示例五："<div>div1</div><div id='div2'>div2 content</div>".jhe_im("div", "@id=div2") 
返回： 'div2 content'

示例六："<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", "p")  
返回：["div1", "div2"]

示例七："<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", ">p")  
返回： ["div1"]

示例八："<p>11</p><div>div2</div>".jhe_im("^div")
返回： []

示例九："<div>div2</div><p>11</p>".jhe_im("^div")
返回： ["div2"]

更多的示例可以看代码中的单元测试文件。

方法说明：

jhe_im(匹配参数..)

该方法返回符合匹配参数的标签内的所有内容，返回值类型是数组。

jhe_om(匹配参数..)

该方法返回符合匹配参数标签及其标签内的所有内容，返回值类型是数组。

jhe_ma(匹配参数.., 属性名)

该方法返回符合匹配参数标签的指定属性的属性值，返回值类型是数组。

jhe_mt(匹配参数..)

该方法返回符合匹配参数的标签下的所有文本内容，返回值类型是数组。

关于匹配参数，匹配参数是个不定长的参数，他可以为以下内容

html标签: 如 'div', 'a'...，表示为需要匹配的标签名称

属性表达式： @attributeName=attributeValue, 如 '@class=red', '@id=container'，表示需要匹配的标签的属性必须符合指定条件

属性表达式： @@attributeName=attributeValue, 如 '@@class=\\w', '@id=[1-9]*'，表示需要匹配的标签的属性必须符合指定的正则式条件

^+html标签：，表示当前html字符串的第一个标签

>+html标签：，表示紧接前一标签的下一标签

iteye_11088

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
发布了一个基于Javascript的html内容提取器

Javascript Html Extractor v0.0.1当前的版本是 v0.0.1。项目地址：http://code.google.com/p/javascripthtmlextractor/ 该内容提取器主要用于快速提取指定的html字符串中的指定内容。如有发现问题或有建议，请留言，谢谢。先看示例：示例一："&lt;div&gt;&lt;p&gt;div1&lt;/...
复制链接

扫一扫