Python爬虫+ pyqt5(从零开始到爬取教务处新闻,课程表,成绩)

前言:

刚开始以为Python爬虫很高深,其实,当你模仿其他人的代码,敲了一遍之后,你8成就可以理解Python的基本爬虫了。

 

无论是学习什么事情,刚开始就要准备好利器工具,那样我们才能开始我们的旅程。工欲善其事,必先利其器麻!

Python的安装:点击打开链接    我下载的是3.5 你也可以下载其他版本的

Pycharm(是IDE)安装:点击打开链接

pyqt5 安装:点击打开链接

另外最好用火狐浏览器,查看 调试好点。

 

(一)好啦,准备好了,就让我们写一个最基本爬虫,爬取一个网页的图片。

20180523001404197

我们就爬这个网页的所有图片

先按F12,再按F5查看,如下图

20180523001605982

再点击对应的网页

20180523002026491

这样我们获取网页的基本信息已经都做完了,就可以敲代码了。注意:代码要对齐,不然pycharm会报错。

#导入正则模块  用于匹配
import re
#导入请求模块  向网页请求的
import urllib.request
 
#通过url获取网页     def 这是一个函数定义头  getHtml函数名    url函数参数
def getHtml(url):
    """			
    通过url获取html地址		#函数说明
    :param url:
    :return: html
    """
	#headers 网页的请求头 防止反爬虫(骗服务器,是浏览器在请求,而不是机器人在请求)  在对应的网页 按F12调试查看
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
    }
	#请求 返回req
    req = urllib.request.Request(url, headers =headers)
    #打开req返回一个网页
	html = urllib.request.urlopen(req).read()
    return html

#通过正则表达式来获取图片地址,并下载到本地
def getImg(html):
    """
    根据reg获取图片,并下载到本地
    :param html:
    :return: imglist
    """
	# 定义图片正则 规则
    reg = r'src="(.+?\.jpg)"'
	#匹配
    imgre = re.compile(reg)
	#找到图片列表
    imglist = re.findall(imgre, html)
	#x图片编号
    x = 1
    for imgurl in imglist:
        print(imgurl)
        #通过urlretrieve函数把数据下载到本地的D:\\images,所以你需要创建目录
        urllib.request.urlretrieve(imgurl, './images/'+'%s.jpg'%x)
        x = x + 1
    return imglist

def get():
	
    html = getHtml("https://tieba.baidu.com/p/5680688545")
    #记得加上这句 不然会乱码 编码格式看网页源代码 大部分 utf-8 gbk json
    html = html.decode('utf-8')
    print(html)
    print(getImg(html))

if  __name__ == "__main__":
    get()

里面加了好多注释,代码是很短的,实际代码也只有十几行。另外我忘了加入Sleep函数了,加上的话会变慢,不过这样能够保证持续爬取,如果过快爬取的话,服务器会认为你频繁访问而暂停你的请求。

会爬一个网页的图片就可以爬多个网页了。

其实很简单,只需要加工for循环 不断 改变gethtml里面的url的地址,不同的url对应不同的网页,就可以实现爬取不同网页的图片了。

下面我举个栗子,你们自己再试着去模仿下哈:

import re
import urllib.request
import urllib.error
from urllib.request import urlopen
import os
import operator
import time
#通过url获取网页
def getHtml(url):
    """
    通过url获取html地址
    :param url:
    :return: html
    """
    # 用于模拟http头的User-agent
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
    }

    req = urllib.request.Request(url, headers =headers)
    try:
        page = urlopen(req)
    except urllib.error as e:
        print(e)
    print(222)
    html = page.read().decode('utf-8')
    return html


#通过正则表达式来获取图片地址,并下载到本地
def getImg(html):
    """
    根据reg获取图片,并下载到本地
    :param html:
    :return: imglist
 
  • 13
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
### 回答1: Python3是一种编程语言,它提供了很多库和框架可以用于各种应用开发。PyQt5Python3的一个GUI(图形用户界面)库,它允许我们创建各种图形界面应用程序。PyCharm是一个Python集成开发环境(IDE),它提供了丰富的功能和工具,可以方便地进行Python编程和应用程序开发。 在Python3中,我们可以使用PyQt5库来访问和控制摄像头。通过使用PyQt5的QCamera和QCameraViewfinder类,我们可以访问计算机上已连接的摄像头设备,并在应用程序中显示摄像头视频流。这样我们就能够在应用程序中捕捉摄像头的图像,并进行进一步的处理和分析。 PyCharm是一个非常流行的Python开发工具,它提供了许多有用的功能来帮助我们编写、调试和测试Python代码。在PyCharm中,我们可以直接编写Python代码,并使用其强大的代码编辑器和自动补全功能来提高编码效率。同时,PyCharm还提供了集成的调试器,可以方便地调试和跟踪代码的执行过程。 因此,如果我们想在Python3中使用PyQt5库来访问和控制摄像头,并且希望使用一个强大的开发工具来编写和调试代码,我们可以选择使用PyCharm作为我们的开发环境。PyCharm提供了直观的界面和丰富的功能,可以让我们更轻松地编写和调试基于PyQt5的摄像头应用程序。 ### 回答2: Python3是一种高级编程语言,PyQt5是用于创建图形界面应用程序的Python库,PyCharm是一种集成开发环境(IDE)。摄像头通常是指用于捕捉图像或视频的设备。 在Python中使用摄像头,可以使用OpenCV库来实现。OpenCV是一个开源计算机视觉库,可用于处理图像和视频。 要在PyQt5中使用摄像头,可以通过使用QCamera类来获取和控制摄像头。您可以将QCamera对象与QCameraViewfinder或QGraphicsView一起使用,以便在应用程序中显示摄像头捕捉的图像。 对于IDE,PyCharm是一种流行的Python开发环境,具有代码编辑器、调试器、版本控制等功能。PyCharm提供了丰富的功能和工具,使Python开发更加高效和便捷。 要在PyCharm中使用Python3和PyQt5以及摄像头,您可以首先安装Python3和PyQt5库。然后,您可以设置项目,并使用PyCharm提供的编辑器编写代码。在代码中,您可以导入所需的库和模块,以及使用适当的代码来处理摄像头和图像。 总而言之,您可以使用Python3编写具有PyQt5界面的应用程序,并在PyCharm中进行开发和调试。通过使用OpenCV库,您还可以使用摄像头捕捉图像和视频。 ### 回答3: Python3是一种高级编程语言,广泛应用于各个领域的软件开发和数据分析。PyQt5是一个Python模块,用于创建交互式和可视化的桌面应用程序。PyCharm是一种以Python为主要语言的集成开发环境(IDE),它提供了许多方便的工具和功能来帮助开发者更高效地编写和调试代码。 在Python3中,我们可以使用PyQt5来编写应用程序,包括调用摄像头进行图像采集和处理。通过调用PyQt5中的相机模块,我们可以访问计算机上的摄像头设备,并获取实时的图像数据。使用这些图像数据,我们可以进行各种图像处理操作,如图像增强、图像过滤、目标跟踪等。 为了更好地开发和调试Python应用程序,我们可以使用PyCharm作为开发工具。PyCharm提供了代码编辑器、调试器、版本控制集成等功能,可以提高开发效率和代码质量。在PyCharm中,我们可以轻松设置Python解释器,并导入所需的库和模块,以便使用PyQt5进行摄像头编程。 总结来说,Python3、PyQt5和PyCharm可以一起使用来实现摄像头相关的应用程序。Python3提供了强大的编程能力,PyQt5提供了访问和处理摄像头图像的功能,而PyCharm提供了开发工具和环境,使开发者可以更轻松地进行开发和调试工作。通过这些工具和技术,我们可以实现各种摄像头应用,如视频监控系统、人脸识别系统等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

原来是阿中

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值