python爬虫学习笔记(六)——抽取网页信息和链接

上一篇博客好像因为图片插入有点多,到现在还是待审核,一直不显示……所以我们继续,在(五)当中我们已经成功的从网页的特定标签和css属性中获取了我们想要的信息,主要涉及到soup.select()方法的使用。
今天,主要总结的是,将requests和BeautifulSoup4联合运用,将一个网页的信息和链接直接通过爬虫抽取出来。

首先,我们使用前面已经学习过的 requests 存取整个页面的内容并输出确认一下。(这里为了讲解内容的方便,我们获取的是csdn的首页)

import requests
res = requests.get('https://www.csdn.net/')
res.encoding = 'utf-8'
print(res.text)

然后,我们在这个的基础上加入我们的BeautifulSoup4的功能。
这个时候我们就需要辨别一下,我们所要获取的信息的class类型。

  • 首先,我们打开csdn的首页(鉴于插入太多图片要审核,这里就不放图了)。在网页内点击鼠标右键,选择审查元素(不同浏览器可能名称不同),选择查看我们所要获取的模块的class信息。
  • 我们发现我们要获取的标题信息和链接所在的class是“clearfix”。里面的标题标签为 “h2” ,链接标签为 “a” 根据我们上一篇博客所写的class标签信息的获取方法,我们改编上述代码如下:
import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.csdn.net/')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')

for news in soup.select('.clearfix'):  #获取class标签名
    if len(news.select('h2'))>0:  #去除标题为空的情况
        h2 = news.select('h2')[0].text  #获取标签为h2的标题
        a = news.select('a')[0]['href']  #获取标签为a的链接
        print(h2,a)
    

然后我们就可以看到我们抓取的所有标题和其对应的链接了:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值