教你如何编写第一个简单的爬虫

最新推荐文章于 2024-07-26 22:40:18 发布

置顶

好书精选

最新推荐文章于 2024-07-26 22:40:18 发布

阅读量1.9w

点赞数 67

分类专栏：好书精选文章标签： python

本文链接：https://blog.csdn.net/weixin_37649168/article/details/104265388

版权

本文介绍了如何编写第一个简单的Python爬虫，包括获取页面、提取数据和存储数据的步骤。通过示例代码，展示了如何使用requests和BeautifulSoup库来获取和解析网页内容，提取出博客标题，并存储到本地txt文件。同时，提到了Chrome的审查元素功能在定位网页元素中的作用。

摘要由CSDN通过智能技术生成

很多人知道爬虫，也很想利用爬虫去爬取自己想要的数据，那么爬虫到底怎么用呢？今天就教大家编写一个简单的爬虫。

下面以爬取笔者的个人博客网站为例获取第一篇文章的标题名称，教大家学会一个简单的爬虫。

第一步：获取页面

#!/usr/bin/python
# coding: utf-8

import requests #引入包requests
link = "http://www.santostang.com/" #定义link为目标网页地址
# 定义请求头的浏览器代理，伪装成浏览器
headers = {
   'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 

r = requests.get(link, headers= headers) #请求网页
print (r.text)  #r.text是获取的网页内容代码

上述代码就能获取博客首页的HTML代码，HTML是用来描述网页的一种语言，也就是说网页呈现的内容背后都是HTML代码。如果你对HTML不熟悉的话，可以先去w3school(http://www.w3school.com.cn/html/index.asp)学习一下，大概花上几个小时就可以了解HTML。

在上述代码中，首先import requests引入包requests，之后获取网页。

（1）首先定义link为目标网页地址。

（2）之后用headers来定义请求头的浏览器代理，进行伪装

（3）r是requests的Response回复对象，我们从中可以获取想要的信息。r.text是获取的网页内容代码。

运行上述代码得到的结果如图所示。
在这里插入图片描述

第二步：提取需要的数据

#!/usr/bin/python
# coding: utf-8

import requests
from bs4 import BeautifulSoup     #从bs4这个库中导入BeautifulSoup

link = "http://www.santostang.com/"
headers = {
   'User-Agent'