爬虫入门教程及实战演练_老Q量化投研的博客-CSDN博客

爬虫入门教程及实战演练

文章平均质量分 90

用最基本的工具，抓取最常见的网页！ 1. 结合示例快速掌握Python中常用网络请求库和网页解析库； 2. 在实战中巩固爬虫技能！

文章数：11 文章阅读量：13876 文章收藏量：29

作者: 老Q量化投研

不过是个概率游戏。

展开

用requests和正则表达式抓取猫眼电影数据

但这种办法有一些缺点，比如网站的源码中对于缺失数据的处理不合预期时，就可能导致某些字段出现缺失数据，这样不同字段的数据列表长度就产生了差异，我们就无法简单地进行合并了。可以看到，最古老的电影是1939年上映的由费雯·丽主演的《乱世佳人》，鼎鼎大名，名不虚传。数洞更感兴趣的，是最新的电影《英雄本色》，这部电影面世三十多年之后，经过4K技术的修复，在国内正式上映，着实赚了不少忠实粉丝的眼泪。到此为止，我们就完成了猫眼TOP100的抓取，也进行了简单的描述统计分析，下次我们再考虑下其他的网页解析工具的使用。

原创 2018-09-16 21:35:48 · 3477 阅读 · 1 评论
Python3+Selenium爬虫实战：微博粉丝榜水分大揭秘

高能预警！分析到最后，我不得不感慨这个世界太真实了！文中有大量代码，注重阅读体验的请在PC站打开！或者直接去我的个人博客（www.data-insights.cn）阅读！一、微博粉丝榜：一潭深水微博粉丝榜争夺战由来已久，每个明星在榜单上的位置似乎就象征着他（她）在粉丝心中、在娱乐圈中的地位。但众所周知，微博粉丝榜是有着极大水分的。微博刷榜、刷关注等早已形成一套产业链。发展源自需求，有人提供...

原创 2018-11-29 21:12:43 · 3095 阅读 · 6 评论
爬虫神级解析工具之XPath：用法详解及实战

Xpath最初被设计用来搜寻XML文档，但它同样适用于HTML文档的搜索。通过简洁明了的路径选择表达式，它提供了强大的选择功能；同时得益于其内置的丰富的函数，它可以匹配和处理字符串、数值、时间等数据格式，几乎所有节点我们都可以通过Xpath来定位。在Python中，lxml库为我们提供了完整的Xpath选择器，今天我们就用它来学习Xpath的使用，我们的目标是用最少的时间来掌握使用频率最高的核心技能，而这些核心技能基本上可以满足我们网页抓取的需求。

原创 2023-02-16 21:28:20 · 2560 阅读 · 1 评论
搞量化先搞数（下）：A股历史行情免费抓取实战

上一节我们学习了如何抓取A股的股票列表，我们成功地将股票列表保存到了本地文件（或数据库）中。那么这一节，我们就来看下如何免费获取A股的历史行情数据。

原创 2023-02-15 21:39:47 · 907 阅读 · 0 评论
搞量化先搞数（上）：A股股票列表免费抓取实战

到了这一步，我们学习了基础的爬虫请求库urllib和requests，尤其是后者，强大且易用，极其适合新手使用。那么今天我们就找一个相对简单的案例，来看一下如何在实战中应用爬虫技能。相信很多朋友都对股票感兴趣，甚至有些朋友想要通过量化研究来获得超额收益。然而，想要进行量化研究，我们首先得先有数据。暂且不说各种财务数据、行业数据、新闻公告等相对复杂的，我们至少得有个股票列表和历史行情数据吧？如今市场上能为散户提供数据的，有一些公开的接口，不过为了得到比较好的体验，基本上还是得花一些钱，比如强大的。

原创 2023-02-15 21:36:19 · 477 阅读 · 0 评论
最易上手的爬虫请求库：Requests核心功能速览（下）

上一个章节我们讲了如何快速使用Requests发送网络请求、处理URL参数和提取响应内容，这些是最基本的操作。然而还有很多场景下，我们的网络请求更加复杂。比如我们必须要定制请求头来假装成浏览器，不然可能会被网站识别为机器并且被屏蔽；又比如我们需要在发送请求时以表单形式携带部分参数，以获得定制化的响应结果；甚至我们还要在请求时上传一个文件……今天我们就来看一下如何在Requests中优雅地实现这些功能。

原创 2023-02-15 21:35:38 · 512 阅读 · 0 评论
最易上手的爬虫请求库：Requests核心功能速览（上）

前边三个章节我们学习了Python内置的爬虫请求库urllib的使用。说起urllib，它也算是挺强大了，可定制程度很高。但是它有一个最大的问题，那就是使用起来还是不够方便，在处理一些复杂的功能比如会话、验证等时会比较复杂，甚至为了给URL添加一些请求参数，我们还得专门将这些参数进行编码。于是有了Requests。再优美的语言都无法形容Requests的强大和好用。它的语法非常简洁，哪怕实现非常复杂的功能，往往也仅需要短短的一行或几行代码，实在是爬虫新手甚至老手的福音。简洁优雅的API并不能掩盖。

原创 2023-02-14 22:46:33 · 401 阅读 · 0 评论
爬虫快速入门教程：利用urllib实现网络请求（下）

urlliberror前边我们讲了使用urllib的request模块和parse模块来分别完成网络请求的发起和URL的正确处理。在这些过程中，我们不免会遇到一些错误，那么当错误发生时，我们应该怎么样避免程序出现我们意料之外的结果呢？其实答案与其他的场景没什么区别，那就是利用好异常捕获工具。

原创 2023-02-14 22:46:00 · 637 阅读 · 0 评论
爬虫快速入门教程：利用urllib实现网络请求（中）

上一节，我们讲了如何通过urllib中的request模块发起网络请求并读取响应。在发起网络请求时，传输正确的url参数是非常重要的。为此，urllib专门提供了一个parse模块用于帮助我们处理URL，它可以帮助我们实现针对URL的提取、解析和合并等。下面我们就针对其中的重点方法做详细说明。

原创 2023-02-14 22:44:29 · 516 阅读 · 0 评论
爬虫快速入门教程：利用urllib实现网络请求（上）

urllib库是Python内置的非常基础的HTTP请求库，在它的助力下，我们可以通过短短的几行代码就完成一次从网页请求到处理响应结果的过程。而且urllib库是Python的内置库，也就是说我们无需进行额外的安装。urllibrequesturlliberrorurllibparseurllibrobos.txt在接下来的三个章节里，我们会重点学习一下这四个模块中的核心功能。首先，我们先看一下最核心的request模块。request模块实现了发起网络请求所需的各种功能，包含了处理身份验证、使用代理和。

原创 2023-02-14 22:41:00 · 671 阅读 · 0 评论
爬虫快速入门教程：爬虫应该怎么学

数据，是互联网时代最大的财富。

原创 2023-02-14 22:39:47 · 628 阅读 · 0 评论

爬虫入门教程及实战演练

作者: 老Q量化投研

用requests和正则表达式抓取猫眼电影数据

Python3+Selenium爬虫实战：微博粉丝榜水分大揭秘

爬虫神级解析工具之XPath：用法详解及实战

搞量化先搞数（下）：A股历史行情免费抓取实战

搞量化先搞数（上）：A股股票列表免费抓取实战

最易上手的爬虫请求库：Requests核心功能速览（下）

最易上手的爬虫请求库：Requests核心功能速览（上）

爬虫快速入门教程：利用urllib实现网络请求（下）

爬虫快速入门教程：利用urllib实现网络请求（中）

爬虫快速入门教程：利用urllib实现网络请求（上）

爬虫快速入门教程：爬虫应该怎么学