![](https://img-blog.csdnimg.cn/b71983ee4d90479a81ec79d83af045ca.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫笔记
文章平均质量分 68
本专栏系本人自学Python爬虫所记录的笔记,本人主要研究web前端开发、小程序开发和Android开发,对Python爬虫较为感兴趣,特开此专栏,与大家分享学习经历!
跳探戈的小龙虾
【三生三世十里桃花,一心一意千行代码!】
我是一名 <!- - 前端领域新星创作者 - - > ,目前在学习python在机器学习当中的应用,秋季就读于 电子科技大学 软件工程学术型硕士,关注我,让我们一起进步吧!
展开
-
六万字带你一次性速通python爬虫基础
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。你可以爬取小姐姐的图片,爬取自己有兴趣的岛国视频,或者其他任何你想要的东西,前提是,你想要的资源必须可以通过浏览器访问的到。本文用6w字的篇幅,力求把每一个小白变成具有爬虫基础的开发者,并能通过后续的学习,变成爬虫大咖!原创 2022-03-04 21:56:32 · 11910 阅读 · 51 评论 -
Python爬虫学习笔记_DAY_32_Python爬虫之Excel表的读写【Python爬虫】
I. 总述与目的导向本篇是爬虫基础学习笔记的最后一篇,主要围绕着一个小的遗留点:关于python读写Excel的方式,这在爬虫中用途也很广泛。本篇将通过简单的实例对Excel的读写进行讲解,对比已有的同类文章所出现的内容过于复杂的问题,本文进行了优化,力求以简单的操作为切入点,介绍清楚python读写Excel的基本操作方法。II. 安装相关库首先,我们需要安装一下有关Excel读写的相关库:我们先创建一个python文件,并打开pycharm,查看一下自己的python解释器的位置:原创 2022-03-01 22:36:11 · 4838 阅读 · 21 评论 -
Python爬虫学习笔记_DAY_31_Python爬虫之scrapy框架的日志级别修改【Python爬虫】
p.s.高产量博主,点个关注不迷路!目录I. scrapy框架的日志级别II. 推荐的日志级别修改方案I. scrapy框架的日志级别本篇笔记是scrapy框架入门的最后一篇,主要对scrapy框架的日志级别和显示效果进行介绍。首先,我们任意运行一个之前的scrapy框架项目:这项目的运行效果是在终端打印'+'号,于是在终端中能看到这样的内容:此时终端除了加号之外,其他显示的内容叫做"日志",通俗的讲,就是本次运行的相关信息,这些信息中包含了例如错误信息等重要内原创 2022-02-27 13:41:38 · 731 阅读 · 2 评论 -
Python爬虫学习笔记_DAY_30_Python爬虫之scrapy框架管道的使用详细介绍【Python爬虫】
接下来是一个小知识点:管道的核心代码大部分都在它的名叫 process_item(self,item,spider) 这个函数中。我们于是锁定这个函数体,第二个小知识点是,process_item(self,item,spider) 函数的传参item,是我们在items.py中定义的数据结构对应的数据,也就是说item本身包含了我们传入的初步数据,回忆scrapy框架的工作原理,管道是对数据的二次处理,所以我们会先在爬虫文件中对数据进行解析,解析后的数据才会放进item中。原创 2022-02-26 13:35:06 · 2010 阅读 · 5 评论 -
Python爬虫学习笔记_DAY_29_Python爬虫之scrapy框架项目结构与基本语法详细介绍【Python爬虫】
p.s.高产量博主,点个关注不迷路目录I.scrapy框架的项目结构II.robots协议III.scrapy框架的基本语法介绍I.scrapy框架的项目结构承接上一篇笔记,开始学习scrapy框架的项目结构:首先,我们可以先新建一个scrapy的项目(这里以获取58同城网页数据为例):我们先打开终端,cd指令进入上一篇笔记新建的文件夹中(或者任意新建一个空的文件夹也可以),在这个文件夹下,我们运行项目创建指令,创建新的项目:输入scrapy项目创建指令:.原创 2022-02-22 22:01:54 · 1062 阅读 · 8 评论 -
Python爬虫学习笔记_DAY_28_Python爬虫之scrapy框架的工作原理与安装使用介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.scrapy框架的工作原理介绍II.scrapy框架的安装III.用scrapy框架搭建并运行第一个项目I.scrapy框架的工作原理介绍首先介绍一下scrapy框架是什么:Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试简单的说,scrapy给我们提供了更加简便、高效的爬虫体验,但与此同时原创 2022-02-17 22:33:32 · 1335 阅读 · 4 评论 -
Python爬虫学习笔记_DAY_27_Python爬虫之requests库实战_绕过古诗文网登录页面及验证码的破解方法【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.实战需求确定II.抓取古诗文网登录接口III.难点分析IV.隐藏域的解决方法V.验证码的破解办法:V.I 手动输入V.II 图像识别V.III 打码平台:超级鹰打码VI.完整源码I.实战需求确定本次实战主要的目的是复习requests库的基本语法,同时介绍一些新的内容:登录接口的抓取方式、session的使用、隐藏域问题的解决、验证码的破解方法等。需求是这样的:首先,我们可以打开古诗文网:接线来点原创 2022-02-16 23:01:02 · 2294 阅读 · 2 评论 -
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.requests库的介绍与安装II.requests库的基本语法III.requests库的GET请求IV.requests库的POST请求IV.requests库的代理ip方法V.小结I.requests库的介绍与安装首先,了解一下什么是requests库:它是一个Python第三方库,处理URL资源特别方便,可以完全取代之前学习的urllib库,并且更加精简代码量(相较于urllib库)。那么话不多说原创 2022-02-15 22:36:33 · 1018 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_25_Python爬虫之selenium库的安装_语法介绍_实战全集【Python爬虫】
p.s.高产量博主,点个关注????不迷路!(本文篇幅较长,涉及selenium的大部分内容,可以先收藏)目录I.selenium库的安装及相关浏览器工具的下载II.selenium库的基本语法III.selenium爬虫实战案例:获取jd秒杀页源码IV.selenium自动化小工具实战案例:模拟真人登录古诗文网站V.selenium无界面浏览器的学习I.selenium库的安装及相关浏览器工具的下载首先,我们介绍一下什么是selenium库:selenium是一个原创 2022-02-14 22:45:08 · 1138 阅读 · 6 评论 -
Python爬虫学习笔记_DAY_24_Python爬虫之bs4解析实战篇_批量下载Starbucks咖啡图片【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.实战目标确定II.分析与准备工作III.代码的编写步骤IV.完整源码I.实战目标确定首先,我们确定一下本次实战的目标:获取Starbucks菜单页中的部分图片,下面是Starbucks的菜单页的展示图:由于出于复习巩固bs4语法的目的,我们不爬取过多的图片,以免给Starbucks网站造成太多的访问资源浪费(学习爬虫要讲武德!)。这是爬取的部分图片的展示:上面是我们本次实战的目标确定,如果对bs4的安装和基础原创 2022-02-13 14:07:37 · 1967 阅读 · 11 评论 -
Python爬虫学习笔记_DAY_23_Python爬虫之bs4解析的基本使用介绍【Python爬虫】
目录I.bs4的介绍II.bs4的安装III.bs4的基本语法使用p.s.高产量博主,点个关注????不迷路!I.bs4的介绍首先,介绍一下bs4,它是又一种解析的手段,之前有xpath和jsonpath。bs4的特点是这样的:BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。bs4最舒服的一点是提供了更适合前端开发工作者使用的语言习惯,它的语法很大程度对前端开发工作者是友好的,同时它解析的对象是本地h原创 2022-02-10 22:40:06 · 2270 阅读 · 4 评论 -
Python爬虫学习笔记_DAY_21_Python爬虫之xpath实战_批量下载高清美女图片【Python爬虫】
p.s.高产量博主,点个关注????不迷路!(只需要源码的点击 IV)目录I.目标确定II.查找接口并做xpath解析III.代码实现思路与过程IV.完整源码I.目标确定本次实战的目的是加强xpath的理解和使用,目标是批量下载【站长素材】网站的美女图片,并且可以类推别的图片、数据网站。站长素材是国内最优质的几个素材网站,而且本次爬虫的目标图片完全免费开放,因此不涉及任何版权问题(求生欲!) 下图是部分的图片展示:II.查找接口并做xpath解析根据以往的经验,第一步原创 2022-02-08 23:04:05 · 1961 阅读 · 9 评论 -
xpath常见错误:Opening and ending tag mismatch: meta line 4 的处理方法【Python爬虫】
p.s.高产量博主,点个关注????不迷路!今天更博比较晚,简单的写一个常见错误的处理吧:首先展示一下我们的错误代码(一段xpath处理本地HTML文件的代码) :from lxml import etreetree = etree.parse('xpathDemo.html')print(tree)这是我们对应读取的HTML源代码:<!DOCTYPE html><html lang="en"><head> <meta ch原创 2022-02-07 22:34:37 · 4644 阅读 · 3 评论 -
Python爬虫学习笔记_DAY_20_Python爬虫之xpath的使用方法介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.xpath的安装II.xpath的基本语法I.xpath的安装在第一部分安装的介绍之前,先介绍一下什么是xpath,以及为什么我们要学习xpath:XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。通俗的说,xpath可以用来精确的定位和切割某个标签,标签指的是我们的html文件的源码中的标签,例如<div></div>、<image>&原创 2022-02-06 22:47:06 · 2758 阅读 · 5 评论 -
Python爬虫学习笔记_DAY_19_Python爬虫之代理ip与代理池的使用介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.代理ip及其在爬虫中的使用方法II.简易代理池I.代理ip及其在爬虫中的使用方法首先先介绍一下什么是代理ip地址:代理IP地址:代理IP地址一般是说代理服务器的IP地址,就是说你的电脑先连接到代理IP,然后通过代理服务器上网,网页的内容 通过代理服务器,传回你自己的电脑。代理IP就是一个安全保障,这样一来暴露在公网的就是代理IP而不是你的IP了!以上是对代理ip的介绍,通过介绍可以看出,我们通过代理ip能够防止自己的ip原创 2022-02-05 22:48:07 · 5021 阅读 · 2 评论 -
Python爬虫学习笔记_DAY_18_Python爬虫之handler处理器的使用【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.handler处理器的作用II.handler处理器的使用方法I.handler处理器的作用首先简单介绍一下handler处理器:handler处理器是继urlopen()方法之后又一种模拟浏览器向服务器发起请求的方法或技术。它的意义在于使用handler处理器,能够携带代理ip,这为对抗反爬机制提供了一种策略(很多的网站会封掉短时间多次访问的ip地址)。II.handler处理器的使用方法下面是handler处理器的具体使原创 2022-02-04 22:45:58 · 1060 阅读 · 4 评论 -
Python爬虫学习笔记_DAY_17_Python爬虫之使用cookie绕过登录的介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.什么是cookie?II.利用cookie绕过登录I.什么是cookie?首先,作为文章的第一部分,先介绍一下什么是cookie:Cookie 并不是它的原意“甜饼”的意思, 而是一个保存在客户机中的简单的文本文件, 这个文件与特定的 Web 文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。由于“Cookie”具有可以保存在客户机上的神奇特性, 因此它原创 2022-02-03 22:31:29 · 985 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_16_Python爬虫之爬虫中的异常处理【Python爬虫】
p.s.高产量博主,点个关注????不迷路!在前面有一篇笔记专门介绍python的异常处理,在爬虫中,urllib库的使用过程中会出现几种常见的错误如下:try: request = urllib.request.Request(url=url, headers=headers) response = urllib.request.urlopen(request) content = response.read().decode('utf-8') print(原创 2022-01-31 17:10:26 · 766 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_15_Python爬虫之urllib库实战篇【Python爬虫】
python爬虫的urllib库的实战项目详细步骤介绍!II.urllib库实战之POST请求:获取某餐饮实体店指定页码的店铺位置数据原创 2022-01-30 20:51:25 · 797 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_14_Python爬虫之urllib库的基本使用(下)【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.POST请求的处理II.GET请求与POST请求处理的区别I.POST请求的处理urllib库基础部分的下篇主要介绍对POST请求的处理,下面是urllib库处理POST请求的示例代码:# post请求:百度翻译import urllib.requesturl = 'https://fanyi.baidu.com/sug'headers = { 'User-Agent':'Mozilla/5.0 (Window原创 2022-01-28 22:06:47 · 730 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_13_Python爬虫之urllib库的基本使用(中)【Python爬虫】
目录I.定制请求:请求头II.GET请求的爬虫操作I.定制请求:请求头首先,承接上一次的内容,我们可以爬取百度首页的源码,当时的url是这样的:http://www.baidu.com当我们想要爬取带有SSL加密协议的url时,例如这样的url:https://www.baidu.com此时需要定制我们的请求,也即要开始伪装,下面介绍最基本是一种伪装的方式,也即添加请求头:# 请求对象的定制:为了解决反爬虫的第一种手段url = 'https://www.ba原创 2022-01-27 22:44:19 · 591 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_12_Python爬虫之urllib库的基本使用(上)【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.初识urlliib库:爬取百度首页的源代码II.六个常见的读取方法III.下载图片、音频、视频I.初识urlliib库:爬取百度首页的源代码urllib库是爬虫常用的一个库,通过这个库的学习,能够了解一些爬虫的基础技术。下面以爬取百度首页源码的示例代码介绍urilib库中常用的request()方法:# 导入urllib库import urllib.request# urllib爬取百度首页的步骤:# (原创 2022-01-26 22:42:00 · 602 阅读 · 2 评论 -
Python爬虫学习笔记_DAY_11_Python异常处理【Python爬虫】
p.s.高产量博主,点个关注????不迷路!python中,有时候运行一段代码会报错,这时我们使用的IDE会给我们返回错误的类型在控制台,例如这样的情况,在没有创建对应文件的情况下执行读操作:fp = open('text.txt','r')此时控制台打印出这样的错误:这固然是错误的类型,但是这样的提示是很不友好的,尤其面向客户开发的过程中,这样的错误提示会让人摸不着头脑。因此我们可以使用python中的try catch语句来自定义抛出异常提示:# 异常处理:由于代码错误后,原创 2022-01-25 22:18:16 · 508 阅读 · 3 评论 -
Python爬虫学习笔记_DAY_10_Python文件相关操作详细介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.文件的创建和写入II.文件的读出III.文件的序列化与反序列化I.文件的创建和写入python中,一个文件可以被创建和写入,它的示例代码如下:# python文件操作## 创建/打开一个文件:test.txt# 格式为:open(文件的路径;文件的模式)# 模式有:w 可写 r 可读 a 追加fp = open('demo/test.txt','w')# 文件的关闭# 执行打开、读写操作后要及时关闭文原创 2022-01-24 22:56:07 · 509 阅读 · 2 评论 -
Python爬虫学习笔记_DAY_9_Python函数的使用详细介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.函数的定义II.函数的传参III.函数的返回值IV.局部变量与全局变量I.函数的定义在python中,为了减少代码块的重复性,与其它编程语言一样,也有函数的相关概念与实现方式,首先介绍python中函数的定义,它的格式是这样的:# python 函数# 定义函数# 格式为:def 函数名():# 四个空格 函数体def f_1(): print('Hello,Function')# 函数体前面的空格原创 2022-01-23 21:45:50 · 485 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_8_Python列表_元组_字典的高级使用详细介绍【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.列表的高级使用II.元组的高级使用III.切片IV.字典的高级使用I.列表的高级使用对于列表来说,它的高级使用将从 增删改查 四个角度进行介绍,下面的示例代码:# 列表高级:添加# 1. append 追加,在列表的最后一位添加一个对象/数据food_list = ['apple', 'banana']print(food_list)food_list.append('cock')print(food_l原创 2022-01-22 22:50:36 · 579 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_7_Python字符串高级应用:字符串的各种函数调用【Python爬虫】
p.s.高产量博主,点个关注????不迷路!python中,字符串有很多内置的函数,详细见下面的示例:# 字符串高级:字符串常见的函数# 1.获取长度:len(),返回整型s = 'Lobster'print(len(s))# 2.获取某个字符在字符串中第一次出现的位置索引值(区分大小写): s.find(''),返回整型print(s.find('L'))# 3.判断是否以某个字符开头、结尾:s.startswith(''),s.endswith(''),返回布尔值print原创 2022-01-21 22:39:00 · 412 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_6_Python流程控制语句【Python爬虫】
第六题原创 2022-01-20 22:42:22 · 641 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_5_Python格式化输出与读入【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.输出与格式化输出II.读入III.读入和输出组合小demoI.输出与格式化输出python中,普通的输出在前面的笔记中已经是经常使用了,因而不再介绍,示例代码如下:# 普通输出print('跳探戈的小龙虾')在python中,支持类似于C、C++的格式化输出,它的具体格式如下示例代码:# 格式化输出:后续爬虫scrapy框架中会使用,将爬取的内容存入 Excel、MySQL、Redisage = 20nam原创 2022-01-19 22:33:21 · 1145 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_4_Python运算符【Python爬虫】
运算符原创 2022-01-18 23:09:17 · 426 阅读 · 2 评论 -
Python爬虫学习笔记_DAY_3_Python类型查询与类型转换【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.Python数据类型查询II.类型转换I.Python数据类型查询Python,众所周知,是一个弱类语言,也即它在定义变量的时候,不会事先声明变量的类型,变量的类型真正被确定的地方是在变量的赋值处。在python中,函数type()可以返回变量的数据类型,例如下面的代码示例:# inta = 1print(a)print(type(a))# floatb = 1.2print(b)print(type(b)原创 2022-01-17 22:10:55 · 556 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_2_Python注释及变量类型【Python爬虫】
p.s.高产量博主,点个关注????不迷路!目录I.Python注释写法II.变量类型I.Python注释写法在python中,分为单行注释和多行注释两种注释模式:1️⃣ 单行注释:单行注释在python中的语法是这样的:# 单行注释2️⃣ 多行注释:多行注释在python中的语法是这样的:'''多行注释'''II.变量类型在python中,有六种变量类型:1️⃣ 数字(Numbers)在数字类型下,又细分为两种子数据类型:?原创 2022-01-16 19:24:50 · 409 阅读 · 1 评论 -
Python爬虫学习笔记_DAY_1_Python运行方式及pycharm配置【Python爬虫】
I.pip指令的使用首先简单介绍一下pip指令是什么:pip(Python Package Index)是一个以 Python 语言写成的软件包管理系統,使用 pip 可以非常方便的安装和管理 python 软件包。II.Python的三种运行方式III.Pycharm的基础配置...原创 2022-01-14 22:07:34 · 993 阅读 · 1 评论