10分钟教你Python爬虫（下）--爬虫的基本模块与简单的实战

最新推荐文章于 2024-07-23 16:17:03 发布

infinitor

最新推荐文章于 2024-07-23 16:17:03 发布

阅读量392

点赞数 1

分类专栏： Python 文章标签： java python 大数据人工智能

本文链接：https://blog.csdn.net/Rivalsx/article/details/105431174

版权

本文介绍了Python爬虫的基础模块requests和BeautifulSoup的使用，包括网络请求、HTML解析，以及如何通过它们进行简单的实战。文章通过实例演示了如何安装模块，以及如何获取网页状态码、解析HTML、提取所需内容。最后，文章展示了如何进行翻页操作和数据处理，适合初学者入门。

摘要由CSDN通过智能技术生成

本文来源于公众号【程序猿声】，作者向柯玮

前言

各位看客老爷们，新年好。小玮又来啦。这次给大家带来的是爬虫系列的第二课—爬虫的基本模块与简单的实战。

说到爬虫的基本模块，不知道大家之前有没有了解过呢。如果你之前没有了解过，给小玮一个机会带您慢慢了解它，如果你之前了解过，也请给小玮一个机会帮助您再次巩固。

下面让我来慢慢细说。

准备

在这节课上，我们会主要了解两个模块，requests和BeautifulSoup。

在最开始呢，肯定是大家要下载安装一下这两个模块。当然如果你按照很久以前的一篇推文里面安装的是anaconda的话，你就不需要下载，因为早就已经安装好了。

下面我介绍一下直接安装python的人的安装方法。打开cmd控制台，输入pip install requests，mac用户呢，输入pip3 install requests等待下载结束就可以了。Beautifulsoup的安装会在后面给出。

模块介绍

下面分别来介绍一下这两个模块。

requests

requests是干什么用的呢。它是用作进行网络请求的模块。在这里给大家举一个例子，大家可以试着去输出一下下面的代码，看看到底是什么。

import requests
req=requests.get('http://docs.python-requests.org/en/master')
print（type(req)）
print(req.status_code)
print(req.encoding)
print(req.cookies)

这里的status是状态码，encoding是编码方式。在这里简单的介绍一下常见的状态码。

那么最后的cookies是啥呢？

其实就是一个记录你在这个网页中的活动的东西，可能这么说并不是很形象，可以这样理解，在抖音等APP上，你有没有发现经常看的一些种类的视频总是不断的推送给你，而其他的内容很少推送给你，这是为什么呢？原因很简单，就是因为有这个cookies记录了你的爱好。

就我个人而言࿰

最低0.47元/天解锁文章

infinitor

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
10分钟教你Python爬虫（下）--爬虫的基本模块与简单的实战

本文来源于公众号【程序猿声】，作者向柯玮前言各位看客老爷们，新年好。小玮又来啦。这次给大家带来的是爬虫系列的第二课—爬虫的基本模块与简单的实战。说到爬虫的基本模块，不知道大家之前有没有了解过呢。如果你之前没有了解过，给小玮一个机会带您慢慢了解它，如果你之前了解过，也请给小玮一个机会帮助您再次巩固。下面让我来慢慢细说。准备在这节课上，我们会主要了解两个模块，requests和Beaut...
复制链接

扫一扫

专栏目录