数据采集知识点梳理

南&旧

已于 2023-09-17 14:26:13 修改

阅读量2.2k

点赞数 2

文章标签： python 网络爬虫

于 2023-09-15 17:56:36 首次发布

本文链接：https://blog.csdn.net/2301_77331010/article/details/132907913

版权

本文介绍了网络爬虫的基本概念、Python在网页采集中的应用，包括发送HTTP请求、解析网页内容、使用Requests库、定制请求头，以及Python中的数据类型、运算符、函数、数据结构（列表、元组、字典）和模块/包管理等知识点。

摘要由CSDN通过智能技术生成

爬虫（Web scraping）是指通过编写代码自动化从网页上提取数据的技术或方法。它模拟人类在浏览器中访问网页的行为，自动发送HTTP请求并获取网页的内容，然后通过解析网页的结构和提取所需的数据。

发送HTTP请求：爬虫会发送HTTP请求到目标网页的URL，以获取网页的内容。这个请求可以包括请求头（Headers）和请求参数（Parameters）等信息。
获取网页内容：一旦发送了HTTP请求，爬虫会从服务器接收到网页的响应。响应可以是HTML、JSON、XML等格式，爬虫会将这些内容保存起来以备后续处理。
解析网页：爬虫需要解析网页的结构，以便找到所需的数据。这通常使用解析库（如Beautiful Soup、lxml等）来完成。通过分析网页的HTML结构或使用XPath、CSS选择器等方法，爬虫可以定位并提取出感兴趣的数据。
处理数据：一旦数据被提取出来，爬虫可以对其进行处理、清洗和转换。你可以对数据进行整理、筛选、计算或存储等操作，以满足你的需求

首先创建Requests库：Requests是Python中用于发送HTTP请求的库，它是进行网页采集的重要工具。你可以使用Requests库发送GET、POST等请求，并获取服务器返回的响应内容。
定制请求头：headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据。
Headers查找：右键–>检查–>剩余按照图中显示操作
网址（URL）：访问网页的地址
定义要传递的参数
设置请求头方式以及传递参数
打印请求地址

安装Python：首先，在你的计算机上安装Python解释器。你可以从Python官方网站（https://www.python.org）下载Python。
数据类型：Python支持多种数据类型，包括整数（int）、浮点数（float）、字符串（str）、布尔值（bool）等。你可以使用type()函数来检查变量的数据类型。
运算符：Python提供了常见的数学运算符，例如加法（+）、减法（-）、乘法（*）、除法（/）等。此外，还有比较运算符（如等于、大于、小于等）和逻辑运算符（如与、或、非等）。
函数：函数是一段可重用的代码块，它接受输入参数并返回结果。你可以定义自己的函数，并在需要的时候调用它们。Python也提供了许多内置函数供你使用。
列表和元组：列表和元组是Python中常用的数据结构。列表是可变的（可以添加、删除和修改元素），而元组是不可变的（不能修改元素）。你可以使用索引来访问列表和元组中的元素。
字典：字典是一种键值对的数据结构，在字典中，每个键都对应一个值。你可以使用键来访问和修改字典中的值。
模块和包：Python的模块是可重用的代码文件，包是包含模块的文件夹。模块和包使得你可以组织和管理代码。