发布了一个基于Javascript的html内容提取器

Javascript Html Extractor v0.0.1

当前的版本是 v0.0.1。

项目地址:http://code.google.com/p/javascripthtmlextractor/

 

该内容提取器主要用于快速提取指定的html字符串中的指定内容。

如有发现问题或有建议,请留言,谢谢。

 

 

先看示例:

示例一:"<div><p>div1</p></div>".jhe_im("div")   
返回:["<p>div1</p>"]

示例二:"<div id='attr_div1'>div1</div>".jhe_ma("div", "id")   
返回: ["attr_div1"]

示例三:"<div><p>div1</p></div>".jhe_mt("div")   
返回: ["div1"]

示例四:"<div>div1</div><div>div2</div>".jhe_om("div")  
返回: ["<div>div2</div>", "<div>div2</div>"]

示例五:"<div>div1</div><div id='div2'>div2 content</div>".jhe_im("div", "@id=div2") 
返回: 'div2 content'

示例六:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", "p")  
返回:["div1", "div2"]

示例七:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", ">p")  
返回: ["div1"]

示例八:"<p>11</p><div>div2</div>".jhe_im("^div")
返回: []

示例九:"<div>div2</div><p>11</p>".jhe_im("^div")
返回: ["div2"]

更多的示例可以看代码中的单元测试文件。


方法说明:

  1. jhe_im(匹配参数..)
该方法返回符合匹配参数的标签内的所有内容,返回值类型是数组。
jhe_om(匹配参数..)
该方法返回符合匹配参数标签及其标签内的所有内容,返回值类型是数组。
jhe_ma(匹配参数.., 属性名)
该方法返回符合匹配参数标签的指定属性的属性值,返回值类型是数组。
jhe_mt(匹配参数..)
该方法返回符合匹配参数的标签下的所有文本内容, 返回值类型是数组。
关于匹配参数,匹配参数是个不定长的参数,他可以为以下内容

html标签: 如 'div', 'a'...,表示为需要匹配的标签名称
属性表达式: @attributeName=attributeValue, 如 '@class=red', '@id=container',表示需要匹配的标签的属性必须符合指定条件
属性表达式: @@attributeName=attributeValue, 如 '@@class=\\w', '@id=[1-9]*',表示需要匹配的标签的属性必须符合指定的正则式条件
^+html标签:,表示当前html字符串的第一个标签
>+html标签 ,表示紧接前一标签的下一标签
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值