Python入门笔记（4）----简单的爬虫实例

最新推荐文章于 2024-08-16 18:55:06 发布

T_N_T_

最新推荐文章于 2024-08-16 18:55:06 发布

阅读量289

点赞数

文章标签： python

本文链接：https://blog.csdn.net/T_N_T_/article/details/90732448

版权

环境

使用python编写爬虫需要导入requests这个包，我们在cmd里进入我们自己的python安装目录，然后输入pip install requests就可以安装了
在这里插入图片描述

实现

使用requests我们可以去爬取网页的源码
在这里插入图片描述但是爬虫肯定不能直接这么简单，我们可以看到爬取的源码数据过多，不是我们想要的。因此我们需要解析源码来获取我们需要的信息。可以通过bs4来实现，同样的，我们需要安装BeautifulSoup来使用它。在python目录下，使用pip install beautifulsoup4来安装。
在这里插入图片描述使用BeautifulSoup解析源码后，我们可以看到
接下来，我们可以通过标签名和标签id得到数据

import requests
from bs4 import BeautifulSoup


resp = requests.get("https://blog.csdn.net/T_N_T_/article/details/90731105")
print (resp)#响应值
#print (resp.content)#网页的源码
body=''
body = resp.text
bs4 = BeautifulSoup(body,features="html.parser")
print (bs4)

a = bs4.find('title').get_text()
print (a)
b = bs4.find('p').get_text()
print (b)

运行程序
在这里插入图片描述可以看到已经简单的实现了爬虫，爬取了数据
想要获得更多数据，只需要再去获取更多的标签名就可以实现了。

T_N_T_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python入门笔记（4）----简单的爬虫实例

环境使用python编写爬虫需要导入requests这个包，我们在cmd里进入我们自己的python安装目录，然后输入pip install requests就可以安装了实现使用requests我们可以去爬取网页的源码但是爬虫肯定不能直接这么简单，我们可以看到爬取的源码数据过多，不是我们想要的。因此我们需要解析源码来获取我们需要的信息。可以通过bs4来实现，同样的，我们需要安装Beaut...
复制链接

扫一扫