python对lxml的操作

python对lxml的操作

一、简介

在pyathon爬虫中,常用BeatifulSoup进行html解析,但容易内存溢出。这里介绍另一种工具lxml在html元素提取中的使用,同时与BeatifulSoup方式进行比较。

二、使用

这里直接上代码,具体请查看代码注释。

#! /usr/bin/env python
# -*- coding:utf8 -*-

import requests
from bs4 import BeautifulSoup
from lxml import etree, html
from lxml.html import soupparser

def get_html():
    res = requests.get('http://www.ifeng.com/')
    html_str = res.content
    return html_str


def main():
    # 方式一 采用html方式解析html,使用etree作为parser
    page = html.fromstring(get_html())
    eles = page.cssselect('#headLineSichuan > ul:nth-child(1) > li:nth-child(1)')
    content = eles[0].text_content()
    print(content)

    # 方式二 采用html方式解析html,使用beautifulsoup作为parser,对编码有良好支持
    page = soupparser.fromstring(get_html())
    eles = page.cssselect('#headLineSichuan > ul:nth-child(1) > li:nth-child(1)')
    content = eles[0].text_content()
    print(content)


    # 方式三 采用xml方式解析html
    page = etree.HTML(get_html())
    eles = page.cssselect('#headLineSichuan > ul:nth-child(1) > li:nth-child(1)')
    content = eles[0].xpath('string(.)')
    print(content)

    # 方式四 采用beautifulsoup方式解析html,注意,此时后代结点的写法不同
    page = BeautifulSoup(get_html())
    eles = page.select('#headLineSichuan > ul:nth-of-type(1) > li:nth-of-type(1)')
    content = eles[0].text
    print(content)


if __name__ == '__main__':
    main()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值