python爬取“我的博客”

最新推荐文章于 2023-09-08 15:40:04 发布

@M.

最新推荐文章于 2023-09-08 15:40:04 发布

阅读量224

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_43878294/article/details/102881630

版权

python 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

刚学了一点爬虫，拿自己的博客练练手ˋ( ° ▽、° )

在这里插入图片描述
提取标题、日期、内容、阅读数和评论数五个部分

import requests
from lxml import etree
def get_html(url):
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
    html=requests.get(url,headers=headers)
    html.encodeing=html.apparent_encoding
    #print(html.text)
    return html.text

def information_html(html):
    html=etree.HTML(html)#构造一个xpath解析对象并对HTML文本进行修正
    lis=html.xpath(".//div[@class='article-list']/div")#定位节点
    print('共有',len(lis),'篇博客')
    for div in lis:#提取匹配标签
        title=div.xpath(".//a/text()")[1].strip()
        content=div.xpath(".//a/text()")[2].strip()
        data=div.xpath(".//p/span[@class='date']/text()")[0].strip()
        read_number=div.xpath(".//p/span[@class='read-num']/span/text()")[0].strip()
        comment_number=div.xpath(".//p/span[@class='read-num']/span/text()")[1].strip()
        boke={'标题':title,'日期':data,'内容':content,'阅读数':read_number,'评论数':comment_number}
        print(boke['标题'],'\n',boke['日期'],'\n',boke['内容'],'\n','阅读数:',boke['阅读数'],'评论数:',boke['评论数'],'\n')
if __name__=='__main__':
    url='https://blog.csdn.net/qq_43878294'
    html=get_html(url)
    boke=information_html(html)

在这里插入图片描述

@M.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python爬取“我的博客”

import requestsfrom lxml import etreedef get_html(url): headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.3...
复制链接

扫一扫