lxml.xpath用法

# -*- coding: utf-8 -*-
import requests
from lxml import etree


"""
url = 'http://www.baidu.com'
r = requests.get(url, timeout=5)
r.encoding = r.apparent_encoding
print r.status_code
text = r.text

tree = etree.HTML(text)
result = etree.tostring(tree, encoding='utf-8')  # 获取网页源代码内容,编码
print result  # 网页源代码内容


table_all = tree.xpath('//table[@xxxx]/tr')  # 找到带有'xxxx'的table标签下所有的tr标签
table_0 = tree.xpath('//table[@xxxx]/tr[1]')  # 找到tr的第一个标签,从1开始。

th = table_all[0].xpath('./th')  # 当前目录下找到所有的th标签
td = table_all[1].xpath('./td')  # 当前目录下的td标签
# td_1 = table.xpath('//td')  # 找到所有目录下得td标签
# 获得的数据为列表格式,需要用list[i]找到元素,用text方法取出列表内容。
print len(th)
for i in range(len(th)):  # 分别取出th标签的内容 th[i].text
    print th[i].text

"""

data = {"ACTIONID": "7",
        "AJAX": "AJAX-TRUE",
        "CATALOGID": "1837_xxpl",
        "TABKEY": "tab1",
        "tab2PAGENO": 1,
        "tab2PAGECOUNT": "22",
        "tab2RECORDCOUNT": "435",
        "REPORT_ACTION": "navigate",
        "txtDate": "2018-03-02"
        }
url = 'http://www.szse.cn/szseWeb/FrontController.szse?'
r = requests.post(url, data=data, timeout=5)
r.encoding = r.apparent_encoding
text = r.text


tree = etree.HTML(text)
table_sum = tree.xpath('//table[@id="REPORTID_tab2"]/tr')  # 两个table下tr标签,一个是所有数据的名称,第二个是所有数据。
table_qtd = tree.xpath('//table[@id="REPORTID_tab2"]/tr[1]')

print tree
print table_sum
print table_qtd



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值