模块
文章平均质量分 85
HG。
.
展开
-
Python网络爬虫基本库的使用(大章)
学习爬虫,最基本的操作就是模拟浏览器向服务器发出请求。Pyhton提供了功能齐全的类库来帮助我们实现这些需求。接下来,就让我们从最基础的部分开始了解HTTP库的使用方法吧。urllib 的使用版本:在Python2中,有urllib和urllib2两个库来实现请求的发送。而在python3中,已经不存在urllib2这个库了,统一为urllib。简介:urllib是python内置的http请求库,也就是说不需要额外安装即可使用。它包含如下四个模块。request:它是最基本的 HTTP 请求模块,原创 2022-02-07 14:18:49 · 134 阅读 · 0 评论 -
Scrapy CrawlSpider
CrawlSpiderCrawlSpider 是 Scrapy 提供的一个通用 Spider。在 Spider 里,我们可以指定一些爬取规则来实现页面的提取,这些爬取规则有一个专门的数据结构 Rule 表示。Rule 里包含提取和跟进页面的配置,Spider 会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要用到哪个方法进行解析等。RuleCrawlSpider 里最重要的就是Rule的定义了,它的定义和参数如下所示:class scrapy.spiders.Rule(原创 2021-07-02 21:10:07 · 318 阅读 · 0 评论 -
使用Scrapy爬取励志名句————祝万千学子高考顺利
6月7日,2021年全国高考正式拉开大幕,1078万考生将赶赴考场,迎接人生路上的一次大考。在此,我将使用Scrapy爬取一些励志名句献给广大的高考考生,祝他们高考顺利,学业有成!流程分析创建项目创建爬虫程序进行初始化设置分析网页并创建Item代码实现创建项目首先,我们要创建一个项目,通过下面的命令来实现创建项目:scrapy startproject gsw执行上述代码后,可以看到在文件下创建了一个名为gsw的项目文件夹,其目录结构如下:创建爬虫程序创建好项目后,我们需要先创建原创 2021-06-07 20:29:30 · 662 阅读 · 4 评论 -
Scrapy框架入门
Scrapy简介原创 2021-06-07 18:07:36 · 163 阅读 · 0 评论 -
简单图形验证码的识别
目前,许多网站采取各种各样的措施来反爬虫,其中一个措施是使用验证码。随着技术的发展,验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码,后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码。后来 12306 验证码的出现使得行为验证码开始发展起来,用过 12306 的用户肯定多少为它的验证码头疼过。我们需要识别文字,点击与文字描述相符的图片,验证码完全正确,验证才能通过。现在这种交互式验证码越来越多,如极验滑动验证码需要滑动拼合滑块才可以完成验证,点触验证码需要完全点击正确结果才原创 2021-05-06 22:06:26 · 5117 阅读 · 0 评论 -
动态渲染页面爬取
在之前,我们了解了 Ajax 的分析和抓取方式,这其实也是 JavaScript 动态渲染的页面的一种情形,通过直接分析 Ajax ,我们仍然可以借助 requests 或 urllib 来实现数据爬取。不过,JavaScript 渲染的页面不止 Ajax 一种,为了解决这些问题,我们可以直接使用模拟浏览器运行的方式来实现。这样就可以做到在浏览器中看到是什么样,抓取到的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面,不用管网页后台的 Ajax原创 2021-04-29 20:28:27 · 260 阅读 · 0 评论 -
Ajax数据爬取
有时候我 在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有 这是因为 quests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 jax 加载的, 可能是包含在 TML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成...原创 2021-04-26 00:36:56 · 483 阅读 · 0 评论 -
Beautiful Soup的使用
使用Beautiful Soup对于一个网页来说,都有一定的特殊结构和层次关系,而且很多节点都有id或class属性来做区分,所以我们也可以借助它们的结构和属性来进行数据提取。简介简单来说,Beautiful Soup就是Python的一个HTML 或 XML的解析库,可以用它来方便的从网页中来提取数据。利用它可以省去很多繁琐的提取工作,提高了工作效率。解析器Beautiful Soup 在解析时实际上依赖于解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lx原创 2021-04-07 14:56:15 · 658 阅读 · 1 评论 -
爬虫解析库——XPath的使用
使用XPathXPath,全称 XML Path Language,即XML 路径语言,它是一门在 XML 文档中查找信息的语言。但是它同样适用于 HTML 文档的搜索。所以在做爬虫的时候,我们完全可以使用 XPath 来做相应的信息提取。XPath 概览XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理。几乎所有我们想要定位的节点,都可以用 XPath 来选择。XPath 常用规则下图原创 2021-03-15 23:14:36 · 939 阅读 · 1 评论 -
tkinter 打造文本编辑器
文章目录基本框架主菜单快捷菜单编辑器主题上下文菜单功能实现遗留问题效果图基本框架主菜单# 采用面向对象的写法def _creat_menu_bar(self): menu_bar = Menu(self) # 文件菜单创建,具体的菜单项可以自行更改 file_menu = Menu(menu_bar, tearoff=0) menu_bar.add_cascade(label='文件', menu=file_menu原创 2021-01-16 22:33:47 · 413 阅读 · 0 评论 -
异常与模块
异常异常介绍当Python无法正常处理程序时就会发生一个异常,会影响程序的正常执行。异常也是Python对象,表示一个错误。异常的传播当在函数中出现异常时,如果在函数中对异常进行了处理,则异常不会在进行传播。如果函数中没有对异常进行处理,则异常会继续向函数调用传播。如果函数调用处处理了异常,则不再传播异常,如果没有处理则继续向调用处传播。直到传递到全局作用域(主模块)如果依然没有处理,则程序终止,并显示异常信息。当程序运行过程中出现异常以后,所有异常信息会保存到一个异常对象中。而异常传播时,实际原创 2020-12-20 22:20:48 · 196 阅读 · 0 评论