Python爬虫入门教程！手把手教会你爬取网页数据，不信你学不会-CSDN博客

本文链接：https://blog.csdn.net/qq_46094651/article/details/135974852

本文介绍了网络爬虫的概念、用途，以及其原理，包括发起请求、获取响应、解析内容和保存数据。通过Python示例展示了如何编写一个简单的爬虫抓取租房网站信息并存入数据库。最后，文章鼓励读者系统学习Python，特别是爬虫和数据分析方面，以提升技能和就业竞争力。

摘要由CSDN通过智能技术生成

其实在当今社会，网络上充斥着大量有用的数据，我们只需要耐心的观察，再加上一些技术手段，就可以获取到大量的有价值数据。这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程：

一、什么叫爬虫

爬虫也被称为"网络爬虫"的爬行器，是一种可以自动接入因特网和下载网站内容的软件。百度、 GOOGLE等搜索引擎，就是靠着强大的搜索引擎爬虫，将大量的网上资料收集起来，储存在云中，为网民们提供高质量的搜索服务。

二、爬虫有什么用

你也许会问，学习爬行技术有什么用，除非是那些做搜索引擎的公司。呵呵，终于有个问题问出来了。举个例子，甲公司建立了一个用户论坛，许多人都在上面发表自己的心得体会。A现在要做的就是理解用户的需要，并对他们的喜好进行分析，以便进行下一次的迭代更新。至于数据的获取，自然是要从论坛上下载的。因此，除百度和谷歌之外，还有许多公司，也纷纷开出了高工资，来招募爬虫工程师。你可以在任何一个工作网站上搜索“爬虫工程师”，查看职位的数目和工资水平，你就会明白“爬虫”是多么的受欢迎。

三、爬虫的原理

发起请求：通过HTTP协议向目标站点发送请求（一个request），然后等待目标站点服务器的响应。

获取响应内容：如果服务器能正常响应，会得到一个Response。Response的内容便是所要获取的页面内容，响应的内容可能有HTML，Json串，二进制数据（如图片视频）等等。

解析内容：得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析；可能是Json，可以直接转为Json对象解析；可能是二进制数据，可以做保存或者进一步的处理。

保存数据：数据解析完成后，将保存下来。既可以存为文本文档、可以存到数据库中。

四、Python爬虫实例

前面介绍了爬虫的定义、作用、原理等信息，相信有不少小伙伴已经开始对爬虫感兴趣了，准备跃跃欲试呢。那现在就来上"干货"，直接贴上一段简单Python爬虫的代码：

1.前期准备工作：安装Python环境、安装PYCHARM软件、安装MYSQL数据库、新建数据库exam、在exam中建一张用于存放爬虫结果的表格house [SQL语句：create table house(price varchar(88),unit varchar(88),area varchar(88));]

2.爬虫的目标：爬取某租房网上首页中所有链接里的房源的价格、单位及面积，然后将爬虫结构存到数据库中。

3.爬虫源代码：如下

首先，“工欲善其事必先利其器”，用 Python 写爬虫程序也是一样的道理，写爬虫过程中需要导入各种库文件，正是这些及其有用的库文件帮我们完成了爬虫的大部分工作，我们只需要调取相关的借口函数即可。导入的格式就是 import 库文件名。这里要注意的是在 PYCHARM 里安装库文件，可以通过光标放在库文件名称上，同时按ctrl+alt 键的方式来安装，也可以通过命令行（Pip install 库文件名）的方式安装，如果安装失败或者没有安装，那么后续爬虫程序肯定会报错的。在这段代码里，程序前五行都是导入相关的库文件：requests 用于请求 URL 页面内容；BeautifulSoup 用来解析页面元素；pymysql 用于连接数据库；time 包含各种时间函数；lxml 是一个解析库，用于解析 HTML、XML 格式的文件，同时它也支持 XPATH 解析。

其次，我们从代码最后的主程序开始看整个爬虫流程：

通过 get_db 函数连接数据库。再深入到 get_db 函数内部，可以看到是通过调用Pymysql 的 connect 函数来实现数据库的连接的，这里**seting 是 Python 收集关键字参数的一种方式，我们把数据库的连接信息写到一个字典 DataBase 里了，将字典里的信息传给 connect 做实参。

通过 get_links 函数，获取链家网租房首页的所有房源的链接。所有房源的链接以列表形式存在 Links 里。get_links 函数先通过 requests 请求得到链家网首页页面的内容，再通过 BeautifuSoup 的接口来整理内容的格式，变成它可以处理的格式。最后通过电泳find_all 函数找到所有包含图片的 div 样式，再通过一个 for 循环来获得所有 div 样式里包含的超链接页签（a）的内容（也就是 href 属性的内容），所有超链接都存放在列表links 中。
通过 FOR 循环，来遍历 links 中的所有链接（比如其中一个链接是：https://bj.lianjia.com/zufang/101101570737.html）

用和 2）同样的方法，通过使用 find 函数进行元素定位获得 3）中链接里的价格、单位、面积信息，将这些信息写到一个字典 Info 里面。

调用 insert 函数将某一个链接里得到的 Info 信息写入数据库的 house 表中去。深入到 insert 函数内部，我们可以知道它是通过数据库的游标函数 cursor()来执行一段 SQL语句然后数据库进行 commit 操作来实现响应功能。这里 SQL 语句的写法比较特殊，用到了 format 函数来进行格式化，这样做是为了便于函数的复用。

最后，运行一下爬虫代码，可以看到链家网的首页所有房源的信息都写入到数据里了。（注：test 是我手动指定的测试字符串）