lxml.xpath用法

最新推荐文章于 2022-03-11 15:02:31 发布

大西觉得海星

最新推荐文章于 2022-03-11 15:02:31 发布

阅读量902

点赞数

分类专栏： python 爬虫文章标签： xpath lxml

本文链接：https://blog.csdn.net/tyz_tyz/article/details/81284676

版权

python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

爬虫

9 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
import requests
from lxml import etree


"""
url = 'http://www.baidu.com'
r = requests.get(url, timeout=5)
r.encoding = r.apparent_encoding
print r.status_code
text = r.text

tree = etree.HTML(text)
result = etree.tostring(tree, encoding='utf-8')  # 获取网页源代码内容，编码
print result  # 网页源代码内容


table_all = tree.xpath('//table[@xxxx]/tr')  # 找到带有'xxxx'的table标签下所有的tr标签
table_0 = tree.xpath('//table[@xxxx]/tr[1]')  # 找到tr的第一个标签，从1开始。

th = table_all[0].xpath('./th')  # 当前目录下找到所有的th标签
td = table_all[1].xpath('./td')  # 当前目录下的td标签
# td_1 = table.xpath('//td')  # 找到所有目录下得td标签
# 获得的数据为列表格式，需要用list[i]找到元素，用text方法取出列表内容。
print len(th)
for i in range(len(th)):  # 分别取出th标签的内容 th[i].text
    print th[i].text

"""

data = {"ACTIONID": "7",
        "AJAX": "AJAX-TRUE",
        "CATALOGID": "1837_xxpl",
        "TABKEY": "tab1",
        "tab2PAGENO": 1,
        "tab2PAGECOUNT": "22",
        "tab2RECORDCOUNT": "435",
        "REPORT_ACTION": "navigate",
        "txtDate": "2018-03-02"
        }
url = 'http://www.szse.cn/szseWeb/FrontController.szse?'
r = requests.post(url, data=data, timeout=5)
r.encoding = r.apparent_encoding
text = r.text


tree = etree.HTML(text)
table_sum = tree.xpath('//table[@id="REPORTID_tab2"]/tr')  # 两个table下tr标签，一个是所有数据的名称，第二个是所有数据。
table_qtd = tree.xpath('//table[@id="REPORTID_tab2"]/tr[1]')

print tree
print table_sum
print table_qtd