![](https://img-blog.csdnimg.cn/3be22f7ccdf94c9d97cf69429a79de09.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 96
这个专栏是关于Python爬虫技术的综合指南。从爬虫的基础知识到进阶技巧,覆盖了解析与提取数据、存储、数据分析与可视化等方面。还介绍了强大的爬虫框架和应对反爬虫策略。通过本专栏的学习,读者将全面掌握Python爬虫技术,能够开发高效、稳定的爬虫程序,为数据采集和分析提供实用工具和方法。
大师兄6668
大家好,我是在CSDN平台分享Python基础支持、爬虫、数据分析和Python Web等知识的博主。我还会分享一些关于MySQL和Linux的知识。作为一个热衷于技术探索的程序员,我对Python编程语言充满热爱,并致力于将复杂的概念转化为易于理解和实践的教程。我希望通过我的博客,能够帮助新手轻松入门Python,解决问题,提高技能。同时,我也深知学习的道路上困难与挑战,但正如我的座右铭所言,怕什么真理无穷,每前进一寸,都会有一寸的欢喜。让我们共同在技术的海洋中探索,分享、学习、成长!感谢您的支持和关注!
展开
-
【python爬虫】1.爬虫基础知识
本文详细介绍了Python爬虫的基础原理,包括请求模块、响应解析、爬取策略、存储数据等核心知识点。通过简单示例带您了解爬虫工作流程,并深入剖析如何利用请求模块发送请求,使用正则表达式、Beautiful Soup等解析响应,以及不同爬取策略的应用场景。另外,您还可以学习如何存储和处理爬取的数据。本文内容浅显易懂,无需复杂编程基础即可快速理解爬虫核心原理。原创 2023-08-21 11:23:31 · 8918 阅读 · 1 评论 -
【python爬虫】2.网页基础知识
上一关,我们了解了浏览器的工作原理。延伸到爬虫的工作原理。接着,我们还学习了requests模块,知道可以使用requests.get() 来获取url的数据:最后,也知道了Response对象的四个属性,并成功把网上的图片和电子书下载并保存到本地。由此,爬虫的第0步:获取数据,就搞定了。HTML是用来描述网页的一种语言,英文全称是Hyper Text Markup Language,也叫超文本标记语言。等等,你问什么是标记语言?原创 2023-08-23 18:25:57 · 8715 阅读 · 2 评论 -
【python爬虫】3.爬虫初体验(BeautifulSoup解析)
本文是关于使用BeautifulSoup进行数据解析和提取的指南。介绍了BeautifulSoup的用法,包括解析数据、提取目标数据的方法。通过示例代码和说明,展示了如何使用BeautifulSoup定位和提取HTML或XML文档中的数据。总结了BeautifulSoup的简单易用和灵活性,帮助读者高效处理和分析数据。原创 2023-08-30 11:34:04 · 9567 阅读 · 1 评论 -
【python爬虫】4.爬虫实操(菜品爬取)
在项目的分析过程中,目标确认是必不可少的一步。随后,我们需要提取所需的数据,并根据情况进行组合或寻找最小共同父级标签来解决数量对不上的问题。这些是常见的数据提取思路。在实际操作中,我们需要灵活选择和组合不同的方法。本关卡的项目中,两种方式都可以用来爬取数据。需要注意的是,使用text方法可以获取标签内的纯文本信息,包括子标签的内容,但无法提取属性值。这样的灵活应用能帮助我们更好地完成项目原创 2023-08-30 15:04:25 · 10791 阅读 · 0 评论 -
【python爬虫】5.爬虫实操(歌词爬取)
在这篇文章中,我们探讨了网络及其应用。首先,我们解释了网络是什么以及如何使用它来传输数据和连接世界。然后,我们介绍了XHR(XMLHttpRequest),它是一种用于在Web应用中进行异步数据交换的技术。我们深入研究了XHR的请求过程,包括发送请求和接收响应等步骤。最后,我们探讨了JSON(JavaScript Object Notation)的概念,并提供了解析JSON数据的方法。通过本文,您将对网络、XHR和JSON有更全面的了解。原创 2023-08-31 11:04:55 · 11194 阅读 · 0 评论 -
【python爬虫】6.爬虫实操(带参数请求数据)
本文旨在介绍Python爬虫技术中的带参数请求数据和Request Headers。首先,我们讨论了带参数请求数据的概念以及为什么它在爬虫中很重要。然后,我们详细解释了如何使用Python发送带参数的数据请求,包括GET和POST方法。接下来,我们介绍了Request Headers(请求头),并强调其在模拟真实请求和处理反爬虫机制中的作用。最后,我们提供了添加自定义Request Headers的方法,以便在爬取数据时更灵活、高效地操作。通过本文,您将深入了解Python爬虫中的参数请求数据和Reques原创 2023-08-31 11:34:39 · 10231 阅读 · 0 评论 -
【python爬虫】7.爬到的数据存到哪里?
本文是一份关于Python爬虫技术的综合指南,重点介绍了数据存储方式以及相关的基础知识。首先,我们探讨了不同的数据存储方式,包括Excel和CSV等格式。然后,我们深入研究了Excel写入与读取的基础知识,介绍了如何使用Python处理Excel数据。接着,我们提供了有关CSV写入与读取的必要信息,帮助您轻松地保存和解析CSV文件。通过这篇文章,您将获得关于Python爬虫中数据存储的全面理解,掌握Excel和CSV操作的基本技能。无论是初学者还是有经验的开发者,都可以从中受益,并且更好地利用爬虫技术收集和原创 2023-08-31 13:43:55 · 10381 阅读 · 1 评论 -
【python爬虫】8.温故而知新
本文涵盖了Python爬虫技术中获取、解析和存储数据的重要方面。我们首先介绍了如何在Python中使用各种工具和库(如Requests和BeautifulSoup)来获取Web页面上的数据。然后,我们详细讲解了解析和提取数据的方法。最后,我们介绍了数据储存方式,例如CSV文件。通过这篇文章,您将掌握爬虫技术中获取、解析和储存数据的全过程,并了解常用工具和方法。透彻理解这些核心概念,能够使您更好地利用Python爬虫技术,收收集并处理需要的数据,为数据分析和挖掘打下坚实基础。原创 2023-08-31 14:51:07 · 10909 阅读 · 2 评论 -
【python爬虫】9.带着小饼干登录(cookies)
本文深入探讨了Python爬虫技术中与POST请求、Cookies和Session相关的重要主题。我们首先介绍了如何使用POST请求从网站获取数据,并详细解释了其在爬虫中的应用场景。接着,我们深入讨论了Cookies及其用法,包括在爬虫过程中如何存储和读取Cookies信息,以及如何处理会话(Session)保持。我们强调了Cookies在模拟登录、处理限制访问和维护用户状态方面的重要性。通过本文,您将学习到Python爬虫中POST请求、Cookies和Session的核心概念和操作技巧,提升您的爬虫水平原创 2023-09-01 09:42:25 · 10518 阅读 · 0 评论 -
【python爬虫】10.指挥浏览器自动工作(selenium)
本文系统介绍了Python爬虫技术中使用Selenium库的核心概念和操作方法。我们首先解释了Selenium是什么,它是一个强大的Web自动化工具,能够模拟真实用户操作。接着,我们详细讲解了如何安装并配置浏览器引擎,包括Chrome WebDriver和Firefox WebDriver等。然后,我们探讨了使用Selenium获取数据的基本步骤,以及如何解析和提取所需的数据。此外,我们还介绍了如何使用Selenium实现自动化操作,如点击按钮、填写表单等操作。原创 2023-09-01 11:45:13 · 12216 阅读 · 3 评论 -
【python爬虫】11.让爬虫按时向你汇报
本文详细介绍了使用Python实现天气预报自动发送功能,包括发送HTTP请求、解析网页内容和通过电子邮件发送。通过代码实现定时任务获取天气信息并发送邮件给指定收件人。学习模拟浏览器获取数据、使用任务调度库和发送邮件。展示了Python爬虫技术的应用和可扩展框架,用于自动化获取感兴趣的网页数据。原创 2023-09-01 14:20:24 · 8838 阅读 · 1 评论 -
【python爬虫】12.建立你的爬虫大军
本文详细介绍了Python爬虫技术中的协程概念及其用法。其中,第2节解释了协程的含义,它是一种轻量级的并发编程技术,利用事件循环和非阻塞IO实现高效的任务调度。第3节介绍了多协程的使用方法。通过讲解gevent库和queue模块的应用,展示了如何快速创建、管理和调度多个协程,以提高爬虫程序的并发能力和效率。本文通过实例演示了协程编程技术在爬虫领域的应用,为读者提供了深入理解和掌握该技术的指导。通过使用协程,读者可以优化爬虫程序,提升数据抓取效率,并加速开发过程。原创 2023-09-04 09:49:25 · 9815 阅读 · 0 评论 -
【python爬虫】13.吃什么不会胖(爬虫实操练习)
吃什么不会胖——这是我前段时间在健身时比较关注的话题。相信很多人,哪怕不健身,也会和我一样注重饮食的健康,在乎自己每天摄入的食物热量。利用爬虫,我们可以很简单就爬取到这些食物的热量信息,不用费力就能知道自己摄入了多少食物热量。食物的数量有千千万,如果我们要爬取食物热量的话,这个数据量必然很大。可能你会想到可以使用多协程来爬取。确实,使用多协程来爬取大量的数据是非常合理且明智的选择。本文一步一步教大家如何爬取到自己需要的数据,并且存储在csv文件中。用到了gevent,requests, bs4, csv原创 2023-09-04 10:45:50 · 10097 阅读 · 0 评论 -
【python爬虫】14.Scrapy框架讲解
本文详细介绍了Scrapy框架在Python爬虫技术中的应用。第1节介绍了Scrapy的概念、结构和工作原理,它是一款功能强大、灵活且异步非阻塞的Web爬取框架。第2节重点探讨了Scrapy的使用方法,包括项目创建、配置和数据处理技巧。通过实际示例演示了Scrapy框架的应用,帮助读者快速开发高效稳定的爬虫程序。掌握Scrapy框架的技能将使读者能够应对复杂的数据抓取需求,并提升爬虫程序的效率和可拓展性。本文的内容全面深入,旨在为读者提供指导,帮助其实现精确、高效的数据采集。原创 2023-09-04 11:37:40 · 10198 阅读 · 0 评论 -
【python爬虫】15.Scrapy框架实战(热门职位爬取)
上一关,我们学习了Scrapy框架,知道了Scrapy爬虫公司的结构和工作原理。在Scrapy爬虫公司里,引擎是最大的boss,统领着调度器、下载器、爬虫和数据管道四大部门。这四大部门都听命于引擎,视引擎的需求为最高需求。我们还通过实操爬取豆瓣Top250图书的项目,熟悉了Scrapy的用法。这一关,我会带你实操一个更大的项目——用Scrapy爬取招聘网站的招聘信息。你可以借此体验一把当Scrapy爬虫公司CEO的感觉,用代码控制并操作整个Scrapy的运行。那我们爬取什么招聘网站呢?原创 2023-09-04 15:34:27 · 10844 阅读 · 0 评论 -
【python爬虫】16.爬虫知识点总结复习
本文是一篇关于Python爬虫技术的综合指南。第1部分回顾了爬虫的基础知识,包括解析与提取数据、处理带参数的请求以及存储爬取结果。此外,还介绍了更多高级爬虫技巧和强大的框架,使读者能够开发功能更全面、性能更优越的爬虫程序。第2部分为爬虫进阶路线指引,详细探讨了数据解析与提取、存储、数据分析与可视化等内容,帮助读者不断提升爬虫技能。最后,在第3部分中总结了反爬虫应对策略,帮助读者应对各种反爬虫机制的挑战。通过本文的学习,读者将掌握从入门到进阶的完整爬虫技术,为数据采集和分析提供有力支持。原创 2023-09-04 16:16:40 · 9854 阅读 · 0 评论