最简单的爬虫案例开发，Python原生爬虫

最新推荐文章于 2024-04-16 16:39:50 发布

码农小帅

最新推荐文章于 2024-04-16 16:39:50 发布

阅读量1.9k

点赞数 4

分类专栏： Python基础 python爬虫案例爬虫文章标签：爬虫 python 后端程序人生网络爬虫

本文链接：https://blog.csdn.net/m0_68102573/article/details/124183336

版权

本文介绍了使用Python和BeautifulSoup构建的最简单爬虫案例，爬取某视频网站的教程信息。通过建立imoocSpider.py文件，定义网址，创建请求头部，发起请求，解析HTML并提取数据，最终将课程名称保存到TXT文件。这个教程旨在让读者对爬虫的基本流程有初步认识。

摘要由CSDN通过智能技术生成

大家好，我是小帅

今天给大家来点最简单的爬虫案例，后续我会再给大家更新一些爬虫相关技能点，请持续关注，另外你的三连是对小帅最大的支持 不过声明一下小帅发的所有案例都是供大家学习的，不要随便乱用，或者作为商用！
在这里插入图片描述

前言

我们第一个爬虫程序，是来爬取某视频网的所有教程信息的名字。下面的代码锁使用到的技术有的我们并没有涉及到，后面的学习中我们会一一讲解。 这里只是让大家对爬虫程序有个大概的了解，熟悉最基本的爬虫流程，以及对爬虫处理有一个粗略的印象，同时，也是激发大家学习的热情，让大家对爬虫不仅停留在理论上，也可以实际操作去加深印象。
还有一些小案例，25个游戏源码点击前面蓝色字体自取

1.1 建立 imoocSpider.py 文件

爬虫文件的命名一定要准确，爬虫爬取的是哪一个网站就用哪一个网站来进行命名，这样以后我们写的爬虫越来越多会方便管理。

文件创建好之后首先导入 requests 第三方库和页面解析工具 BeautifulSoup：

import requests   # requests库，用来发送网络请求

from bs4 import BeautifulSoup   # 一个解析库，用来解析网页结构

Tips：BeautifulSoup 我们在后面会讲到，这里只是先用一下。

1.2 定义网址变量

定义网址变量 url，url 中存储的是我们要爬取的网站

url = "https://www.imooc.com" #某课网首页地址

1.3 创建请求头部

创建请求头部，因为服务器会分辨请求的是浏览器或者是爬虫，如果是爬虫的话会直接断开请求，导致请求失败。为了不让我们的爬虫暴露，所以要给它加上一层伪装，这样服务器就会认为是浏览器在请求了：

headers = {
   'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36'}