使用Python写出一个GUI可视化爬虫工具总结分享

最新推荐文章于 2024-04-30 14:03:11 发布

aobulaien001

最新推荐文章于 2024-04-30 14:03:11 发布

阅读量862

点赞数 7

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/aobulaien001/article/details/135126286

版权

私人文档，仅供参考！

前言：我本是一名前端开发，不能说熟悉…最起码前端目前主流技术 Vue React 还是 jQuery 都有使用过。可以说这三个也是包含最少 60%的使用场景了。突然转变去写 Python 真的很不适应，不过还好。也是一种锻炼。当初我的想法是做一个Web平台配合 Java 来调用写好的 Python。当然啦，期间我也使用过 Nodejs 来写后端，结果不太理想。经过一周半的编写，调试，终于可以对接后端，我传递参数给接口，接口服务调用 Python 然后把数据返回给我的同时插入数据库。但是…我还是想的太简单了，中间各种问题层出不穷，真的要把我搞崩溃了。加班到十点多，回家了一直和朋友调试到凌晨，问题仅仅解决了一半…后来经过一番商讨，我反思自己，为什么要做的这么”完美“呢？能用不就好了。于是痛定思痛！想了一晚上，脑子里突然蹦出一个想法！我什么…非要做个Web端呢？直呼握草，立马坐起来拍大腿！我记得 Python 好像是可以写桌面端应用的！！于是次日上班。直接开干！！

软件介绍

软件运行时直接生成txt和csv两种文件。可选

操作流程：

graph TD
手动输入关键词 --> 页数
导入文件 --> 页数--> 执行--> 新建文件并且插入数据

先看一下软件成品吧（截至文章发布前）以及我的GitHub地址

微信截图_20230612093254.png

样式可以用qss来编写

这款桌面端应用目前的功能包括但不限于：分词循环爬取搜索、导入文件爬取、软件设置、在线更新、任务/错误捕获输出、当前进度、自动更新代理等

使用技术及三方库

语言使用的是 Python39 用到的库包括但不限于 PyQt5、requests、BeautifulSoup、os、time、urllib、tldextract、random、psutil、chardet。我就捡几个重点说说吧(仅限于个人理解)。

PyQt5：这个库就是标题所写 GUI（Graphics User Interface），中文名称为图形用户界面，是计算机与其使用者之间的对话接口。我之前用的是 tk 界面实在是！太丑了！

psutil: 专门用来获取操作系统以及硬件相关的信息，比如：CPU、磁盘、网络、内存等等

requests: 如你所见，就是用来请求的

代码结构

序主要分为两个类：Spider 和 MainWindow。

Spider 类主要实现了以下几个方法：

__init__方法：初始化Spider类的属性，包括关键词、页数、文件名、任务输出、进度输入和主窗口等。然后调用search_mobile_web方法开始爬取。
run_getiCookie方法：用于获取cookie。
convert_params方法：将参数转换为列表。
set_ArrayList方法：用于获取URL的域名。
search_mobile_web方法：主要实现了爬取神马搜索引擎的搜索结果的功能。首先获取关键词和页数，然后循环爬取每一页的搜索结果。在爬取每一页的搜索结果时，先设置代理，然后发送请求，获取响应，解析响应，获取搜索结果的标题和URL，并将结果写入文件。最后关闭所有的TCP连接。

MainWindow 类主要实现了以下几个方法：

__init__方法：初始化MainWindow类的属性，包括关键词、页数、文件名、任务输出、进度输入和主窗口等。然后创建控件，包括关键词输入框、页数输入框、文件名输入框、任务输出框、进度输入框、错误输出框、执行按钮、导入文件按钮、取消导入按钮和强行停止按钮。最后创建菜单栏和菜单。
show_setting_dialog方法：用于显示代理参数设置对话框。
show_error方法：用于在错误输出框中显示错误信息。
select_file方法：用于选择要导入的文件。
stop_script方法：用于停止程序的执行。
cancel_import方法：用于取消导入文件。
get_next_word方法：用于获取下一个要爬取的关键词。
run_script方法：用于执行爬虫程序。首先获取关键词、页数和文件名，然后创建Spider对象，并调用search_mobile_web方法开始爬取。最后将爬取结果输出到任务输出框中。如果出现错误，将错误信息输出到错误输出框中。

简单来说Spider负责主线程爬虫逻辑编写，而MainWindow就是负责 GUI 的绘制以及软件的操作反馈等。

部分代码介绍

爬虫这块代码我就不介绍了。因为每个、任何一个爬虫都是独一无二的，无非就是 get 访问网页拿到源代码，然后通过各种方式例如类 ID 来进行定位提取而已。

介绍Spider的： run_getiCookie方法，这个方法可能不适合绝大部分人，因为我爬取的是神马搜索引擎，他的 Cookie 是每次请求都会变化，如果你拿了一个一直用，不出五次，绝对反爬。所以我做的操作是一个 Cookie 就用两次。

下面是代码

def run_getiCookie(self):
    urls = 'https://访问一个能拿到Cookie的地址'
    response= requests.get(urls) # get访问网页
    cookie = response.headers['Set-Cookie'] # 利用response库自带方法取提取header里面的Cookie 然后储存到外部，
    return { # 最后返回我们请求所需要的请求头参数
        'User-Agent': random.choice(agent_list), #这个方法是在众多User-Agent列表里每次提取一个，防止反爬。
        "Accept-Encoding":'参数',
        "Accept-Language":'参数',
        "Server": "参数",
        "Content-Type": "参数",
        'Cookie':cookie
     }

介绍MainWindow的：

show_error方法是用于在错误输出框中显示错误信息。该方法接受一个 message 参数，用于指定要显示的错误信息。在方法内部，使用 Qt 的 appendPlainText 方法将 message 添加到错误输出框中。该方法主要用于在程序执行过程中出现错误时，将错误信息显示给用户，方便用户进行排查和解决。该方法的代码如下：

@staticmethod
def show_error(self, error_msg):
    #静态方法，供外部调用
    # 在错误输出文本框中显示错误信息
    #可以使用append
    self.error_output.setPlainText(error_msg + '\n')

def show_errorMainWindow(self, error_msg):
    self.error_output.setPlainText(error_msg + '\n')

可能有的人就问了，为什么同样功能的代码要写两遍呢？对，我也没办法技术有限。因为不同的类调用方法的话，针对于这个函数，我不太熟悉，其他函数我能调用，我也不知道这个为什么。于是我就写了一个静态的，外部可以直接MainWindow.show_error(str(e)),来调用，可是我本身函数如果调用的话是不可行的，因为staticmethod的缺点有很多，但是对我来说，最重要的一条是

静态方法无法访问类的实例变量和方法，因为静态方法不会自动传递类的实例作为第一个参数。这意味着静态方法无法访问类的状态，也无法修改类的状态。

这也就意味着，我无法使用这个方法捕获错误，来展示到错误输出上去。所以无奈暂时写两个。

select_file，stop_script，cancel_import 这几个方法很简单了，就是导入文件、退出软件、删除导入的文件。

get_next_word 这个方法我也折腾了一会，主要是，我的词语有两个途径，手动和文件。而且文件的词语量常常大于五十万，我目前是用一百万词量测试的。下面看代码：

#简化版
def get_next_word(self):
    if not self.words:
        QMessageBox.information(self, '提示', '文件未导入')
        return None
    else:
        word = next(self.words, None)
        print(word)
        if word is not None:
            return word
        else:
            self.task_output.insertPlainText(f'所有词语查询完毕\n')
            self.task_output.update()
            return None

首先判断导入的文件是否为空，如果为空，则弹出提示框，提示用户文件未导入，并返回 None。如果导入的文件不为空，则使用 Python 的内置函数 next 从文件中获取下一个关键词，如果获取成功，则返回该关键词。如果获取失败，则表示所有关键词已经查询完毕，此时在任务输出框中插入一条提示信息，并返回 None。

---------------------------END---------------------------

题外话

在这里插入图片描述

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁：全网最全《Python学习资料》免费赠送🆓！（安全链接，放心点击）

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python兼职渠道推荐*

学的同时助你创收，每天花1-2小时兼职，轻松稿定生活费.
在这里插入图片描述

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

👉CSDN大礼包🎁：全网最全《Python学习资料》免费赠送🆓！（安全链接，放心点击）

若有侵权，请联系删除

aobulaien001

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用Python写出一个GUI可视化爬虫工具总结分享

软件运行时直接生成txt和csv两种文件。可选graph TD手动输入关键词 --> 页数导入文件 --> 页数--> 执行--> 新建文件并且插入数据先看一下软件成品吧（截至文章发布前）以及我的GitHub地址样式可以用qss来编写分词循环爬取搜索导入文件爬取软件设置在线更新任务/错误捕获输出当前进度自动更新代理等爬虫这块代码我就不介绍了。因为每个、任何一个爬虫都是独一无二的，无非就是 get 访问网页拿到源代码，然后通过各种方式例如类 ID 来进行定位提取而已。
复制链接

扫一扫