自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 零基础学爬虫之数据存储

在之前的文章中,我们学习了如何对网页内容进行解析,并通过requests库对网页内容进行了获取,本文在此基础上,进一步介绍如何提取网页中我们想要的信息,并进行保存。获取了信息后,我们通常需要对信息进行保存,这里介绍一种保存为列表格式的csv文件(可以通过类似方法保存为Excel,但需要导入相应的第三方库)。对网页信息的提取,我们可以通过正则表达式实现,因此我们首先导入正则表达式的第三方库,

2025-12-24 22:24:44 150

原创 零基础学爬虫之网页内容获取

当然,为了伪装成浏览器(随着爬虫技术的发展,相应的反爬虫技术也在进步,因此我们需要进行一些操作来反反爬虫),我们需要携带特定的响应标头headers(相当于告诉网站,我们在通过浏览器访问网页,而不是爬虫程序)。运行上述的代码块,我们便可以得到网页的内容,例如我们打印出res.text可以得到对应网页的全部信息,在这些信息中就包含我们所需要的电影名称,演员,链接等信息。根据之前的介绍,标头中包含我们所需要内容的URL等重要信息,通过分析标头信息,我们发现我们所需要的内容是通过GET请求方法向URL(

2025-09-25 22:05:56 266

原创 零基础学爬虫之网页内容分析

除了通过观察URL和页面内容去寻找我们想要的数据,另一种常见且高效的方式是通过浏览器自带开发者工具中的网络工具来筛选相关的内容(这种方法尤其在一些动态加载页面或是数据由间接URL提供的情况下有效,因此强烈推荐接下来介绍的方法)。点击搜索结果后会自动跳转到相应的URL上,点击相关的URL会出现该URL的具体信息,标头包含请求URL,请求方法等信息,负载一般包含携带的参数,响应为访问URL获取的内容,预览则是对内容进行一定的渲染。在此背景下,本文开始介绍基于Python的爬虫相关知识。

2025-09-24 22:18:40 947

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除