- 博客(3)
- 收藏
- 关注
原创 零基础学爬虫之数据存储
在之前的文章中,我们学习了如何对网页内容进行解析,并通过requests库对网页内容进行了获取,本文在此基础上,进一步介绍如何提取网页中我们想要的信息,并进行保存。获取了信息后,我们通常需要对信息进行保存,这里介绍一种保存为列表格式的csv文件(可以通过类似方法保存为Excel,但需要导入相应的第三方库)。对网页信息的提取,我们可以通过正则表达式实现,因此我们首先导入正则表达式的第三方库,
2025-12-24 22:24:44
150
原创 零基础学爬虫之网页内容获取
当然,为了伪装成浏览器(随着爬虫技术的发展,相应的反爬虫技术也在进步,因此我们需要进行一些操作来反反爬虫),我们需要携带特定的响应标头headers(相当于告诉网站,我们在通过浏览器访问网页,而不是爬虫程序)。运行上述的代码块,我们便可以得到网页的内容,例如我们打印出res.text可以得到对应网页的全部信息,在这些信息中就包含我们所需要的电影名称,演员,链接等信息。根据之前的介绍,标头中包含我们所需要内容的URL等重要信息,通过分析标头信息,我们发现我们所需要的内容是通过GET请求方法向URL(
2025-09-25 22:05:56
266
原创 零基础学爬虫之网页内容分析
除了通过观察URL和页面内容去寻找我们想要的数据,另一种常见且高效的方式是通过浏览器自带开发者工具中的网络工具来筛选相关的内容(这种方法尤其在一些动态加载页面或是数据由间接URL提供的情况下有效,因此强烈推荐接下来介绍的方法)。点击搜索结果后会自动跳转到相应的URL上,点击相关的URL会出现该URL的具体信息,标头包含请求URL,请求方法等信息,负载一般包含携带的参数,响应为访问URL获取的内容,预览则是对内容进行一定的渲染。在此背景下,本文开始介绍基于Python的爬虫相关知识。
2025-09-24 22:18:40
947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅