python lxml怎么选取html注释_如何使用python lxml获取html元素

我有这个

HTML代码:

aaabbbcccddd
eeefffggghhh

我使用这个Python代码来提取所有< td class =“test”>使用lxml模块.

import urllib2

import lxml.html

code = urllib.urlopen("http://www.example.com/page.html").read()

html = lxml.html.fromstring(code)

result = html.xpath('//td[@class="test"][position() = 1 or position() = 4]')

它很好用!结果是:

aaa ddd eee hhh

(所以每个< tr>的第一和第四列)

现在,我必须提取:

aaa (the title of the link)

ddd (text between tag)

eee (the title of the link)

hhh (text between tag)

我怎样才能提取这些值?

(问题是我必须删除< b>标记并在第一列上获取锚点的标题并删除第四列上的< small>标记)

谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值