抓取我自己csdm博客信息的标题和文章链接,并存入文件夹
一、抓取信息
分析:
1、我们要找到自己所要抓取的链接的xpath
右键:检查元素-》xpath
代码:
from lxml import etree#调用的函数
import requests #调用的函数
r=requests.get('https://blog.csdn.net/weixin_41665637').content#被测地址
topic=etree.HTML(r)
html=topic.xpath("//main/div/div/h4/a/@href")#抓取链接
title=topic.xpath("//main/div/div/h4/a/text()")#抓取标题
#
print(html)
print(title)
结果