python3利用xpath爬取糗事百科数据并保存为json

利用xpath爬取糗事百科的数据,关键在于对xpath的使用,可以用浏览器插件对xpath做相应的对照。
我的处理方法是提取出来相对比较有“概括性”的父节点,然后通过父节点对爬取的页面进行解析得到子节点集,之后再利用for循环遍历节点集,从而再利用子节点提取出用户名、用户发表的段子、点赞数、评论数、帖子包含的图片。最后将其存储在字典里写入json文件。

# -*- coding:utf-8 -*-
# 
from urllib import request as urllib2
from lxml import etree
import json
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
}

def spider(headers):
    # 只爬取第一页的数据 可以自行修改
    url = 'https://www.qiushibaike.com/8hr/page/1/'
    request = urllib2.Request(url, headers=headers)
    response = urllib2.urlopen(request)
    html = response.read()
    dom = etree.HTML(html)
    # 模糊查询  存储为根节点
    node_list = dom.xpath('//div[contains(@id,"qiushi_tag")]')
    # 遍历节点列表
    for node in node_list:
    # 得到用户名
        userName = node.xpath('./div/a/h2/text()')
        # print(''.join(userName).split())
        # 得到图片
        image = node.xpath('.//img[@class="illustration"]/@src')
        # 得到段子
        text = node.xpath('./a/div[@class="content"]/span/text()')
        # 得到点赞数
        zan_num = node.xpath('.//span[@class="stats-vote"]/i/text()')
        # 得到评论数
        comments_num = node.xpath('.//a/i/text()')
        # 爬取用户名 图片 段子 赞数 评论数
        items = {
            'userName':userName,
            'image':image,
            'text':text,
            'zan':zan_num,
            'comments':comments_num,
        }
        # 利用open as语句以追加的方式写入文件
        with open('qiushi.json','a',encoding='utf-8') as file:
            file.write(json.dumps(items, ensure_ascii=False) + '\n')
if __name__ == '__main__':
    spider(headers)

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangbowj123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值