python爬取“我的博客”

刚学了一点爬虫,拿自己的博客练练手ˋ( ° ▽、° )

在这里插入图片描述
提取标题、日期、内容、阅读数评论数五个部分

import requests
from lxml import etree
def get_html(url):
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
    html=requests.get(url,headers=headers)
    html.encodeing=html.apparent_encoding
    #print(html.text)
    return html.text

def information_html(html):
    html=etree.HTML(html)#构造一个xpath解析对象并对HTML文本进行修正
    lis=html.xpath(".//div[@class='article-list']/div")#定位节点
    print('共有',len(lis),'篇博客')
    for div in lis:#提取匹配标签
        title=div.xpath(".//a/text()")[1].strip()
        content=div.xpath(".//a/text()")[2].strip()
        data=div.xpath(".//p/span[@class='date']/text()")[0].strip()
        read_number=div.xpath(".//p/span[@class='read-num']/span/text()")[0].strip()
        comment_number=div.xpath(".//p/span[@class='read-num']/span/text()")[1].strip()
        boke={'标题':title,'日期':data,'内容':content,'阅读数':read_number,'评论数':comment_number}
        print(boke['标题'],'\n',boke['日期'],'\n',boke['内容'],'\n','阅读数:',boke['阅读数'],'评论数:',boke['评论数'],'\n')
if __name__=='__main__':
    url='https://blog.csdn.net/qq_43878294'
    html=get_html(url)
    boke=information_html(html)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值