python 使用re实现xpath节点功能

最新推荐文章于 2022-12-06 19:29:47 发布

bitko

最新推荐文章于 2022-12-06 19:29:47 发布

阅读量1.9k

点赞数

分类专栏： Python-Coding

本文链接：https://blog.csdn.net/gumengkai/article/details/52599807

版权

Python-Coding 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

#! /usr/bin/python
# #encoding:utf-8

import re
#!/usr/bin/python
#encoding:utf-8
import re


def foo(xpath, content):
    print xpath
    if xpath.startswith('/'):
        arr= xpath[1:].split('/', 1)
        node = arr[0]
        c = re.compile(r"\<%s\>(.*?)\<\/%s\>" % (node, node), re.S)
        # print c.pattern
        content_list = c.findall(content)
        if len(arr) > 1:
            xpath = '/' + arr[1]
            return foo(xpath, content_list[0].strip())   #注意这里一定要加上return返回值
        else:
            return content_list[0].strip()


s = '''<html>
        <header><title>hello world</title></header>
        <body>
            <div>
                <h1>Hello World</h1>
            </div>
            <div>
                <span>test</span>
            </div>
        </body>
        </html>'''
xpath = '/html/body/span'
print foo(xpath, s)

抓取豆瓣最佳影评

import re
import codecs
def foo(xpath,content):
    xpath=xpath[1:]
    arr=xpath.split('/',1)
    cn_pattern = re.compile('[^\x00-\xff]+.*?[^\x00-\xff]+')
    if len(arr)>0:
        node=arr[0]
        fd_pattern=re.compile(r"\<%s(.*?)\<\/%s\>" %(node,node),re.S)
        fd_result=fd_pattern.findall(content)
        if len(arr)>1:
            xpath='/'+arr[1]
            for i in range(len(fd_result)):
                foo(xpath, fd_result[i])
        else:
            print cn_pattern.search(fd_result[0].strip()).group()


f=codecs.open('D:/doubanhtml/douban0.html','r','utf-8')
content=f.read()
xpath=('/header/h3/a')
foo(xpath,content)

bitko

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 使用re实现xpath节点功能

#! /usr/bin/python# #encoding:utf-8import re#!/usr/bin/python#encoding:utf-8import redef foo(xpath, content): print xpath if xpath.startswith('/'): arr= xpath[1:].split('/', 1
复制链接

扫一扫