环境
使用python编写爬虫需要导入requests这个包,我们在cmd里进入我们自己的python安装目录,然后输入pip install requests
就可以安装了
实现
使用requests我们可以去爬取网页的源码
但是爬虫肯定不能直接这么简单,我们可以看到爬取的源码数据过多,不是我们想要的。因此我们需要解析源码来获取我们需要的信息。可以通过bs4来实现,同样的,我们需要安装BeautifulSoup来使用它。在python目录下,使用
pip install beautifulsoup4
来安装。
使用BeautifulSoup解析源码后,我们可以看到
接下来,我们可以通过标签名和标签id得到数据
import requests
from bs4 import BeautifulSoup
resp = requests.get("https://blog.csdn.net/T_N_T_/article/details/90731105")
print (resp)#响应值
#print (resp.content)#网页的源码
body=''
body = resp.text
bs4 = BeautifulSoup(body,features="html.parser")
print (bs4)
a = bs4.find('title').get_text()
print (a)
b = bs4.find('p').get_text()
print (b)
运行程序
可以看到已经简单的实现了爬虫,爬取了数据
想要获得更多数据,只需要再去获取更多的标签名就可以实现了。