爬新闻,记录图片、文字位置

模板代码:

        
import lxml.etree

html = lxml.etree.HTML(resp.text)    # 网页
nodes = html.xpath("//div[@class='text']//*")    # 匹配新闻内容下的所有节点
for i in nodes:

    # 文字
    text = i.text    
    if text:
        print(i.text)

    # 图片
    img_url = i.get('src')
    if img_url:
        print(i.get('src'))

    # 文字(尾部)
    tail = i.tail
    if tail:
        print(i.tail)

 

Demo:

以搜狐新闻为例

import requests
import lxml.etree

resp = requests.get('http://m.sohu.com/a/292745933_116897/?pvid=000115_3w_a&_f=index_chan08news_1')

html = lxml.etree.HTML(resp.text)    # 网页
nodes = html.xpath("//div[@class='display-content']//*")    # 匹配新闻内容下的所有节点
for i in nodes:

    # 文字
    text = i.text
    if text:
        print(i.text)

    # 图片
    img_url = i.get('src')
    if img_url:
        print(i.get('src'))

    # 文字(尾部)
    tail = i.tail
    if tail:
        print(i.tail)

 

有用的帮我点下这个链接,外链:

http://www.yu-yuechina.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值