【python】数据采集快速入门

最新推荐文章于 2024-09-03 17:22:28 发布

艾普里莫

最新推荐文章于 2024-09-03 17:22:28 发布

阅读量392

点赞数 1

分类专栏：数据采集文章标签： python 开发语言 scrapy

本文链接：https://blog.csdn.net/aipulimo/article/details/141851407

版权

数据采集专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据采集

数据采集，就是可以快速的收集数据，自动的，不用人一页一页复制。
这是非常重要的。
下面，我来介绍一下，在python中，如何做到这一点。

urllib

在python中，想要数据采集，就需要使用urllib，这是非常好的。
发送get请求

import urllib.request

# 定义要访问的网址
url = 'http://example.com/'

# 打开网址
response = urllib.request.urlopen(url)

# 读取内容
html = response.read()

# 打印获取的数据
print(html)

发送post请求

import urllib.parse
import urllib.request

# 定义要访问的网址和数据
url = 'http://example.com/login'
values = {'username': 'user', 'password': 'pass'}

# 编码数据
data = urllib.parse.urlencode(values)
data = data.encode('ascii')  # 数据需要编码为 bytes

# 发送请求
request = urllib.request.Request(url, data)
response = urllib.request.urlopen(request)

# 读取响应
html = response.read()

# 打印结果
print(html)

什么是get/post请求

可能有一些萌新，对于get/post请求缺乏认识，下面我来介绍一下，什么是get/post请求。

get请求

GET 请求主要用于从服务器获取数据。它通常用于请求页面、图片、视频等资源，或者根据查询参数检索信息。GET 请求的特点包括：

数据可见性：GET 请求的数据会附加在 URL 上，形式为查询字符串（即 URL 中的 ?key=value 部分），因此数据在浏览器的历史记录、服务器的日志文件中都是可见的。
限制数据长度：由于数据附在 URL 上，大多数浏览器和服务器对 URL 长度有限制，这可能导致数据量大的请求无法通过 GET 发送。
可缓存：GET 请求结果可以被浏览器或代理服务器缓存，以加快相同资源的后续访问速度。
幂等性：理论上，GET 请求是幂等的，意味着多次执行相同的 GET 请求，服务器上的数据不会改变（但是实际上并不总是如此）。