一起学爬虫（二）九行代码的简单爬虫

最新推荐文章于 2024-03-20 00:35:48 发布

Chris_Lsy

最新推荐文章于 2024-03-20 00:35:48 发布

阅读量796

点赞数 2

分类专栏： Python学习笔记文章标签： python

本文链接：https://blog.csdn.net/JCMLSY/article/details/106963966

版权

Python学习笔记专栏收录该内容

9 篇文章 1 订阅

订阅专栏

爬虫初体验

编写一个简单爬虫

各位在学习时最好亲自手敲一遍代码，慎用CV大法。

编写一个简单爬虫

爬取网站:www.santostang.com
先准备一会儿会用到的包，已经安装的朋友可以跳过这一步

# JupyterNotebook
!pip install requests
!pip install bs4

在安装包过程中遇到困难的朋友可以看看这一篇教程：https://blog.csdn.net/sinat_23619409/article/details/79961836

下面进入正题

第一步获取页面

目标功能：爬取首页HTML代码
在这里我们将要用到 requests.get() 函数，给大家介绍一个使用不熟悉的函数的技巧，可以通过JupyterNotebook查看函数文档

import requests
requests.get? #在函数后面打个问号，运行以后就会弹出函数文档

在这里插入图片描述
由此可知，requests.get()函数至少需要两个参数，网址和浏览器请求头。
关于浏览器请求头，可参考这两篇文章，有了他们，就可以把我们的爬虫伪装成各种浏览器：Python爬虫：常用的浏览器请求头User-Agent；时下流行的浏览器User-Agent大全

import requests #导入包，requests在网络爬虫中应用非常多

#定义link为目标网页地址
link = "http://www.santostang.com/"
#定义请求头的浏览器代理，把爬虫伪装成浏览器
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}
#请求网页
r = requests.get(link,headers=headers)

#输出获取的网页内容代码
print(r.text)

看看会输出什么吧？
HTML
这就是网页的HTML源码了

第二步提取所需数据

在这里我们使用beautifulsoup解析数据（个人认为正则表达式也挺好用，大家可以去bilibili看看陈光老师的课程去了解一下）

import requests
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup包，在后边会有关于他的详细教程

#定义link为目标网页地址
link = "http://www.santostang.com/"
#定义请求头的浏览器代理，把爬虫伪装成浏览器
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}
#请求网页
r = requests.get(link,headers=headers)

#使用BeautifulSoup解析
soup = BeautifulSoup(r.text,"html.parser")
#找到第一篇文章的标题 h1 ，定位到class是“post-title”的 h1 元素，提取a和a里的字符串，再用strip()去掉空格
title = soup.find("h1",class_="post-title").a.text.strip()

#打印一下看看有没有成功提取标题
print(title)

在这里插入图片描述

这样我们就成功提取出了一个标题，但是我们如何在长代码中定位所需元素呢？
使用Chrome的好处就来了，我们可以使用他的“检查（审查元素）”功能

使用Chrome浏览器打开网页http://www.santostang.com，右键单击，点击“检查”，英文版的是Inspect
点击左上角的小箭头，然后再点击页面中想要的数据，在Element中就会出现相应code的位置
找到标蓝色的地方，看看数据的相关参数，就可以拿来使用了。（此处需要大家掌握一丢丢HTML的简单知识，起码要知道各种参数的意义，实在不行，就问搜索引擎）

第三步存储数据

这一步的实现比较简单，只要用两行代码写入文件就可以了。

首先，在python文件所在的目录新建一个txt文件。如果你跟我一样使用的是JupyterNotebook，可以直接去Notebook主页新建一个txt。

记得更改文件名

import requests
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup包，在后边会有关于他的详细教程

#定义link为目标网页地址
link = "http://www.santostang.com/"
#定义请求头的浏览器代理，把爬虫伪装成浏览器
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}
#请求网页
r = requests.get(link,headers=headers)

#使用BeautifulSoup解析
soup = BeautifulSoup(r.text,"html.parser")
#找到第一篇文章的标题 h1 ，定位到class是“post-title”的 h1 元素，提取a和a里的字符串，再用strip()去掉空格
title = soup.find("h1",class_="post-title").a.text.strip()

#打开刚刚新建的txt文件，用f.write写入文件
with open("note1_title.txt","a+") as f:
    f.write(title)