Py使用requests爬虫1（基础+入门）

桂亭亭

已于 2022-08-09 11:50:22 修改

阅读量1.5k

点赞数 1

分类专栏： python 文章标签：爬虫 python pycharm

于 2022-08-09 11:49:52 首次发布

本文链接：https://blog.csdn.net/qq_53679247/article/details/126244400

版权

python 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

序

哈喽，小伙伴们上午好呀，哈哈

今天咱们就来浅浅的用Py的requests模块来进行一些简单的爬虫，当然可能还会用到其他模块比如说bs4，等等

1 Pycharm中模块的准备

在控制台或终端输入以下指令安装bs4以及requesps模块

pip install bs4
pip install requests

2 牛刀小试

粘代码

我们新建一个.py文件，将以下代码粘贴上去即可。

import bs4
import requests #调用requests库
#引入bs4库
from bs4 import BeautifulSoup
#获取网页源代码，得到的res是Response对象
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')

#把res的内容以字符串的形式返回
html=res.text

#把html装换为bs对象(重要)
suop=BeautifulSoup(html,"html.parser")

#提取出class名为books的标签中的内容，看不懂的看第3大步
#suop中有两个方法find()与find_all()，第1个是只存成一个结果，第2个是组成多个结果并以列表形式返回
items=suop.find_all(class_="books")

#检查请求是否正确响应
print('响应状态码:',res.status_code)

#打印网页源代码（测试使用）
# print(items)

#循环遍历结果列表
for item in items:
    #第一个find是数据再提取，text是输出标签内部的内容
    find = item.find("h2").text
    title=item.find(class_="title").text
    content=item.find(class_="info").text
    print(str(find),"\n",title,"\n",content,"\n")

看结果

运行结果如下图：

做总结

在以上代码中，就是已经写的很详细了这里总结一下大致思路！

第1步：使用requests点get请求网址

第2步：我们将请求得到的网址以文本形式返回

第3步：将我们的文本形式转化为bs4对象

第4步：通过bs4模块对网页中的内容进行筛选提取（一直筛选提取直到得到想要的信息为止）

第5步：自由发挥就好了，哈哈

3 通过控制台查看网页中的class

一图胜万言

万言不如一图美

桂亭亭

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Py使用requests爬虫1（基础+入门）

在以上代码中，就是已经写的很详细了这里总结一下大致思路！第1步：使用requests点get请求网址第2步：我们将请求得到的网址以文本形式返回第3步：将我们的文本形式转化为bs4对象第4步：通过bs4模块对网页中的内容进行筛选提取（一直筛选提取直到得到想要的信息为止）第5步：自由发挥就好了，哈哈。......
复制链接

扫一扫