python项目实战_爱吃饼干的小白鼠的博客-CSDN博客

python项目实战

文章平均质量分 83

python基础项目实战（适合新手）分享部分网站的采集数据代码，爬虫时效性很高，目前还未失效。（python实战更新中）

文章数：54 文章阅读量：168013 文章收藏量：998

作者: 爱吃饼干的小白鼠

CSDN内容合伙人，新星计划优秀导师。Python领域新星创作者。2022年度博客新星top100入围。安徽省第八届互联网＋省赛铜奖获得者。参加的大学生创新创业大赛在国家立项。本人不定期分享自己的心得，本人专注的领域是python 、爬虫、嵌入式硬件、单片机、C/C++。

展开

专栏收录文章

Python项目开发案例————学生信息管理系统（附源码）

本文使用Python语言开发了一个学生信息管理系统，该系统可以帮助教师快速录入学生的信息，并且对学生的信息进行基本的增、删、改、查操作；还可以实时地将学生的信息保存到磁盘文件中。

原创 2023-08-25 21:25:22 · 7970 阅读 · 27 评论
基于OpenCV的人脸识别和模型训练系统（万字详解）

人脸检测与识别是机器视觉领域最热门的研究方向之一，本文详细介绍了人脸识别与模型训练系统。本系统实现了集人脸识别、训练人脸模型在内的多项功能：包括通过摄像头进行人脸的实时识别，博文提供了完整的Python代码和使用教程，适合新入门的朋友参考，完整代码资源文件请转至本文绑定的资源地址。由于博主能力有限，博文中提及的方法即使经过试验，也难免会有疏漏之处。希望您能热心指出其中的错误，以便下次修改时能以一个更完美更严谨的样子，呈现在大家面前。同时如果有更好的实现方法也请您不吝赐教。

原创 2023-08-18 13:05:02 · 2131 阅读 · 49 评论
【Python实战】Python对中国500强排行榜数据进行可视化分析

今天来跟大家分析一下2022年中国500强企业排行榜数据，从不同角度去对数据进行统计分析，可视化展示。本文从开始到最后发文，花费了一天时间（精心制作），保证以高质量文章给大家阅读，麻烦给个赞和在看通过本文的学习，我们学习了数据采集以及可视化分析。我们在研究官方文档的时候，也是在一种学习，本次实战，我们明白如何解决返回值是jsonpCallback()的问题。今天就到这里，有什么问题，可以在评论区留言。

原创 2023-03-29 23:55:37 · 2892 阅读 · 14 评论
【Python实战】Python采集二手车数据——超详细讲解

今天，我们将采集某二手车数据，通过这个案例，加深我们对xpath的理解。通过爬取数据后数据分析能够直观的看到二手车市场中某一品牌的相对数据，能够了解到现在的二手车市场情况，通过分析数据看到二手车的走势，车商就可以利用这些数据进行定价，让想买二手车却不了解市场的人了解到大概的价格走势，到了店里不会被骗。我们在采集数据的时候，遇到各种问题，自己在尝试解决问题，也是在一种学习，本次实战，我们明白如何使用xpath解析数据。

原创 2023-03-31 00:19:07 · 6922 阅读 · 42 评论
【Python获取相亲网站数据】马上都元宵节了，还在相亲，看看某相亲网站有没有那个有缘人。

马上都元宵节了，还在相亲，看看某相亲网站有没有那个有缘人。今天我们来爬取某相亲网站获取我们想要的数据，比如说，对方的姓名，年龄，身高，体重等等。今天我们主要使用CSS选择的方法来匹配我们想要的数据，通过这篇的学习，可以加深大家对CSS的用法的了解，以及明白不同于正则匹配的地方。话不多说，让我手把手教你，如何获取吧。

原创 2023-02-03 23:46:17 · 1896 阅读 · 29 评论
【爬虫+可视化】Python爬取疫情并可视化处理数据

网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛.当人们在网络上(如google)搜索关键字时,其实就是比对数据库中的内容,找出与用户相符合的.网络爬虫程序的质量决定了搜索引擎的能力,如google的搜索引擎明显要比百度好,就是因为它的网络爬虫程序高效,编程结构好.可以这么简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬如何爬，将是后面进行学习的内容，暂且不必深究。

原创 2022-09-13 17:39:31 · 1211 阅读 · 12 评论
【Pyhthon实战】Python对全校电费查询采集并可视化分析

我们本文详细介绍了如何采集单个房间电费，并延展到获取全校电费并且做可视化分析。

原创 2023-08-10 21:34:07 · 1131 阅读 · 5 评论
【Python实战】Python采集大学教务系统成绩单

在现代教育中，教务系统已经成为了学校管理和教学工作的重要组成部分。然而，由于各种原因，教务系统的成绩单并不能下载的，这给我们带来了很多不必要的麻烦和困扰。因此，采集教务系统成绩单的项目具有非常重要的意义。

原创 2023-06-08 22:08:47 · 2433 阅读 · 25 评论
【Python实战】Python采集高校信息

大家好，我们今天来爬取某站的高校名单，把其高校名单，成员和内容数获取下来，不过，我们发现这个网站比我们平时多了一个验证，下面看看我是怎么解决的。

原创 2023-06-01 20:38:45 · 2306 阅读 · 12 评论
【Python实战】Python采集地震信息

昨天，我们这里发生了地震，不过，没有太大的问题，我就想着能不能把近几年发生地震的信息，收集下来，我们发现中国地震台网的官方微博会分布近几年发生地震的信息。我们可以直接在这里获取。

原创 2023-05-28 15:52:37 · 2781 阅读 · 2 评论
【Python实战】Python采集小说文本内容

通过本文的学习，我们学习了数据采集。我们在采集数据的时候，遇到各种问题，自己在尝试解决问题，也是在一种学习，本次实战，我们明白如何使用正则表达式解析数据。今天就到这里，有什么问题，可以在评论区留言。

原创 2023-05-29 22:51:20 · 1310 阅读 · 2 评论
【Python实战】Python采集王者皮肤图片

这是一篇关于如何采集王者皮肤的文章，介绍了如何从英雄列表获取编号，并使用正则表达式从网页地址中提取英雄编号和名字。此外，还介绍了如何使用 requests.get() 函数从网页中获取数据，以及如何将数据保存到文件中。

原创 2023-06-14 21:56:06 · 3587 阅读 · 28 评论
【Python实战】Python采集情感音频

我最近喜欢去听情感类的节目，比如说，婚姻类，我可能老了吧。我就想着怎么把音乐下载下来了，保存到手机上，方便我们业余时间去听。这是一个关于如何下载音乐并保存到手机的Python代码实战。

原创 2023-06-07 18:51:41 · 5120 阅读 · 81 评论
【Python实战】Python采集王者最低战力信息

王者新赛季马上就要开始了，大家都开始冲榜了，准备拿一个小省标，那么，本文，就来练习获取各地最低战力的爬虫采集实战。

原创 2023-06-12 16:27:32 · 1285 阅读 · 24 评论
【Python实战】Python采集热榜数据

大家好，我们今天来爬取C站的热搜榜，把其文章名称，链接和作者获取下来，我们保存到本地，我们通过测试，发现其实很简单，我们只要简单获取数据就可以。没有加密的东西。

原创 2023-05-30 21:00:14 · 1075 阅读 · 0 评论
python正则表达式实战——获取图片

我最近自学了一段时间爬虫，感觉挺有意思的，逛网页的时候，无意间发现了wallhaven的一个壁纸网站，我就萌生了一个想法，看能不能爬下来，说干就干。下面就按照爬虫的思路，一步一步的进行。

原创 2022-11-18 17:48:02 · 2602 阅读 · 3 评论
Python项目实战——外汇牌价（附源码）

今天我们就来爬取中国银行网站的中国银行外汇牌价，获取我们想要的数据。中国银行金融市场业务，包括国内、国际本外币金融市场相关交易、投资、理财、托管等业务，为公司、个人以及金融同业提供全面、完善、专业的各项金融市场服务。几乎每个人都在使用银行卡。requests是一个很实用的Python HTTP客户端库，爬虫和测试服务器响应数据时经常会用到，requests是Python语言的第三方的库，专门用于发送HTTP请求，使用起来比urllib简洁很多。

原创 2023-02-09 18:11:23 · 3383 阅读 · 31 评论
基于OpenCV的人脸识别

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。介绍OpenCV中图像的处理。

原创 2023-03-21 22:57:19 · 18951 阅读 · 52 评论
基于OpenCV的图片和视频人脸识别

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容，基于OpenCV的图片和视频人脸识别。介绍Haar的概念，以及如何对图片和视频中进行人脸检测，以及如何训练我们自己的模型，并在自己的模型下进行人脸识别。

原创 2023-03-25 02:15:05 · 6192 阅读 · 35 评论
【验证码的识别】—— 点触式验证码的识别

大家好，不知不觉的我来csdn已经又一周年了，在这一年里，我收获了很多东西，我是2022年2月22日入驻CSDN的，一开始只是为了方便浏览文章的，后来，我也有事没事发发文章，创作了100多篇文章，有近三分之一是高质量文章，在这个不到一年里，我收获了1066位粉丝，其实，我写文章不是为了粉丝数量，只是在这个平台把自己的知识分享给别人。在新的一年里，我可以继续努力，日出万物生，日落满天星。新的一年依然记得仰望星空。2022年6月16日，那时候我才2个粉丝。虽然现在的粉丝不多，2000都没有。

原创 2023-02-22 07:00:00 · 1350 阅读 · 8 评论
【验证码的识别】—— 极验验证码的识别

目前，许多网站采取各种各样的措施来反爬虫，其中一个措施便是使用验证码。随着技术的发展，验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码，后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码，这使得识别愈发困难。后来 12306 验证码的出现使得行为验证码开始发展起来，用过 12306 的用户肯定多少为它的验证码头疼过。我们需要识别文字，点击与文字描述相符的图片，验证码完全正确，验证才能通过。

原创 2023-02-19 16:40:37 · 1187 阅读 · 3 评论
【验证码的识别】—— 图形验证码的识别

目前，许多网站采取各种各样的措施来反爬虫，其中一个措施便是使用验证码。随着技术的发展，验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码，后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码，这使得识别愈发困难。后来 12306 验证码的出现使得行为验证码开始发展起来，用过 12306 的用户肯定多少为它的验证码头疼过。我们需要识别文字，点击与文字描述相符的图片，验证码完全正确，验证才能通过。

原创 2023-02-18 23:34:21 · 2995 阅读 · 12 评论
python之爬虫基础（1）

比如，对于一个登录表单，输人用户名和密码后，点击“登录”按钮，这通常会发起一个 POST请求，其数据通常以表单的形式传输，而不会体现在URL中。一般来说，登录时，需要提交用户名和密码，其中包含了敏感信息，使用GET方式请求的话，密码就会暴露在URL里面，造成密码泄露，所以这里最好以POST方式发送。但是在目前的互联网中，URN用得非常少，所以几乎所有的URI都是URL,一般的网页链接我们既可以称为URL,也可以称为URI,我个人习惯称为URL。请求- -张图片时 ,它的响应体就是图片的二进制数据。...

原创 2022-08-26 23:53:21 · 1611 阅读 · 10 评论
python 之爬虫基础（2）

今天我们主要介绍网页基础。用浏览器访问网站时，页面各不相同，你有没有想过它为何会呈现这个样子呢？本节中，我们就来了解一下网页的基本组成、结构和节点等内容。

原创 2022-08-30 00:29:36 · 1409 阅读 · 14 评论
Python之爬虫基础(3)

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一下。1．获取网页爬虫首先要做的工作就是获取网页，这里就是获取网页的源代码。源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息了。前面讲了请求和响应的概念，向网站的服务器发送一个请求，返回的响应体便是网页源代码。所以，最关键的部分就是构造一个请求并发送给服务器，然后接收到响应并将其解析出来，那么这个流程怎样实现呢？总不能手工去截取网页源码吧？...

原创 2022-08-31 22:47:57 · 866 阅读 · 15 评论
爬虫的三大库

大家好，我是爱吃饼干的小白鼠。大家安装完python的requests，beautifulsoup ，lxml三个库，之后，我们就来说说怎么使用吧。然后我教大家一个简单的爬虫程序。

原创 2022-10-24 08:00:00 · 6923 阅读 · 18 评论
lxml解析库的使用

我们要实现了一个最基本的爬虫，但提取页面信息时使用的是正则表达式，这还是比较烦琐，而且万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多少少还是有些不方便。我们今天说说另外一种方法。对于网页的节点来说，它可以定义id、class或其他属性。而且节点之间还有层次关系，在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么，在页面解析时，利用XPath或CSS选择器来提取某个节点，然后再调用相应方法获取它的正文内容或者属性，不就可以提取我们想要的任意信息了吗?

原创 2022-11-27 23:55:29 · 985 阅读 · 0 评论
如何使用正则表达式

大家会发现只有中间的一段不一样，而不一样的数据就是我们想要的，我们怎么用正则表达式提取出来呢，§(.*?如果要查找字符串中的 * 符号，则需要对 * 进行转义，即在其前加一个 \，runo*ob 匹配字符串 **runo。这里要用到re库，我就不细说了，主要说说正则表达式怎么用，基本上都大同小异。)” 是python爬虫最常用的一个字符，叫贪心算法，可以匹配任意的字符。概念说了一大堆，大家可能也记不住，我直接说几个案例，大家就能明白其他的道理。

原创 2022-10-25 13:07:56 · 1792 阅读 · 0 评论
python之requests基础用法

大家好，今天就来说说requests的基础用法。

原创 2022-11-21 12:20:25 · 1570 阅读 · 0 评论
python之requests的高级用法

上一篇我们说了requests的简单用法，知道了如何发送请求，今天我们更深层次的来学习requests。我们看看高级一点的操作，比如讲文件上传，cookies设置，代理设置之类的。

原创 2022-11-22 05:45:00 · 1027 阅读 · 0 评论
python之正则表达式【简化版】

大家好，我们今天说一说正则表达式，在之前我们也介绍了关于正则表达式，今天，我们来深入的了解一下。我们知道正则表达式是处理字符串的强大工具，它有自己的语法结构，什么匹配啊，都不算什么。

原创 2022-11-24 22:24:51 · 1168 阅读 · 0 评论
python之scrapy框架

初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器中，等待爬取，同时调度器会自动去除重复的URL（如果特定的URL不需要去重也可以通过设置实现，如post请求的URL）。Scrapy是python开发的一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架，主要用于抓取特定web站点的信息并从中提取特定结构的数据。简单地说就是一个队列，负责接收引擎发送过来的 request请求，然后将请求排队，当引擎需要请求数据的时候，就将请求队列中的数据交给引擎。这些包可以通过pip单独安装。

原创 2022-10-29 22:32:35 · 1770 阅读 · 0 评论
python之模拟登录与表单交互

但如何通过获取登录表单后的信息的？本节将讲解Reqquests库的Post方法，通过观测表单代码和逆向工程来填写表单以获取网页信息，以及通过提交Cookie信息来模拟登录网站。这里要注意几个参数，第一就是咱们的username、pwd，第二就是最后两行的formhash、backurl，因为四个参数是From-Data里面的参数是非常重要的.本文将讲解Requests库的POST使用方法，通过观测表单的网页源代码进行表单的提交，最后通过逆向工程的方法获取表单提交的字段，进而进行表单交互。

原创 2022-10-27 13:19:27 · 2388 阅读 · 0 评论
JSON之dumps和loads的区别

大家好，这段时间一直在说python爬虫相关知识，今天给大家说说json吧，大家可能是又熟悉又陌生，熟悉的是见过，陌生的是不会用。一般在python中我们用json解析数据，我们今天简明扼要的说一下。JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。

原创 2022-10-28 19:55:52 · 1935 阅读 · 0 评论
多线程比串行进程多出的优势在哪里

这里简单的做个类比：有一个大型工厂，该工厂负责生产玩具：同时工厂下又有多个车间，每个车间负责不同的功能，生产不同玩具的零件：每个车间里又有多个车间工人，这些工人互相合作，彼此共享资源来共同生产某个玩具零件等。这样，通过多线程和多进程，网络爬虫就能高效、快速的进行下去。同理，在一个进程中，程序的执行也是在不同线程间进行切换的，每个线程执行程序的不同部分。Python进行多进程爬虫使用了multiprocessing库，此处使用multiprocessing库的进程池方法进行多进程爬虫，使用方法的代码如下。

原创 2022-10-26 17:23:03 · 1495 阅读 · 0 评论
【反爬机制】requests请求返回403，我直接放弃了。

大家好，我自以为自学了一点爬虫就了不起了，没想到它给了我当头一棒。403状态码可以简单的理解为没有权限访问此站。该状态表示服务器理解了本次请求但是拒绝执行该任务.这就是绝对多数网站的。那我们简单了解一下。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度，防止静态爬虫使用ajax技术动态加载页面。

原创 2022-11-12 16:03:29 · 4218 阅读 · 0 评论
代码没有错，但爬取网页无数据输出，因为遇到了异步加载网页

传统的网页如果需要更新内容，必须重新加载整个网页页面，网页加载速度慢，用户体验差，而且数据传输少，会造成宽带浪费。想要抓取这些通过异步加载方法的网页数据，需要了解网页时如何加载这些数据的，该过程就叫做逆向工程，俗称“抓包”。（3）打开Chrome浏览器的开发者工具（按F12），选择Network选项卡，再选择XHR项，可发现网页加载了用户“动态”内容的文件。（8）由于Response返回的是XML的文档，便可以通过Lxml库进行数据的抓取工作，需要抓取的内容为用为“动态”类型和时间信息。

原创 2022-10-26 17:40:52 · 4298 阅读 · 0 评论
论对python面向对象的理解

就像人可以通过不同的肤色划分为不同的种族，食物也有不同的种类，商品也是形形色色。在左边写上变量名，右边写上类的名称，这个过程称之为类的实例化，而my bike就是类的实例。通过“”加上类的属性，就是类属性的引用。类的属性会被类的实例共享，所以结果都是样的。通过使用class定义一个自行车的类，类中的变量compose称为类的变量，专业术语为类的属性。我们引申一下，关于python的实例方法，方法就是函数，方法是对实例进行使用的，所以又叫实例方法。我们还用自行车举例，对于自行车而言，它的方法就是骑行。

原创 2022-10-23 21:36:14 · 1210 阅读 · 1 评论
如何自己搭建本地代理IP池并验证是否可用

大家好，我们上一篇讲到关于反爬的相关知识。其中有一种就是检测IP访问次数的，大家都知道用IP代理池。网络上有付费的，也有免费的，这些东西容易失效，需要的自行获取，这里就不多赘述。这里就需要我们从文件中随机取一个IP访问网址，这里用到了random库，有不会安装的，自行百度。有些IP具有失效性，大家需要自行更新这些，也可以用代码是实现，部分代码如下。大家获取之后，可以保存一个txt文件。我们可以通过socket验证IP是不是我们用的IP。那我们做好了这些，如何调用呢。

原创 2022-11-19 06:00:00 · 14042 阅读 · 1 评论
基于OpenCv的人脸识别,翻车了居然识别错误。

我们身边的人脸识别有车站检票，监控人脸，无人超市，支付宝人脸支付，上班打卡，人脸解锁手机。今天我们就说说利用opencv打造人脸识别系统。本次比较难库，会出很多问题，比如将dlib库和opencv库。有问题自行百度，可以学到很多东西。Opencv是一个开源的的跨平台计算机视觉库，内部实现了图像处理和计算机视觉方面的很多通用算法，对于python而言，在引用opencv库的时候需要写为import cv2。其中，cv2是opencv哎呀，翻车了，怎么判成是一个人呢。等我研究研究。哪里出问题呢，大致就是这样。

原创 2023-01-18 22:32:48 · 7850 阅读 · 16 评论

python项目实战

作者: 爱吃饼干的小白鼠

Python项目开发案例————学生信息管理系统（附源码）

基于OpenCV的人脸识别和模型训练系统（万字详解）

【Python实战】Python对中国500强排行榜数据进行可视化分析

【Python实战】Python采集二手车数据——超详细讲解

【Python获取相亲网站数据】马上都元宵节了，还在相亲，看看某相亲网站有没有那个有缘人。

【爬虫+可视化】Python爬取疫情并可视化处理数据

【Pyhthon实战】Python对全校电费查询采集并可视化分析

【Python实战】Python采集大学教务系统成绩单

【Python实战】Python采集高校信息

【Python实战】Python采集地震信息

【Python实战】Python采集小说文本内容

【Python实战】Python采集王者皮肤图片

【Python实战】Python采集情感音频

【Python实战】Python采集王者最低战力信息

【Python实战】Python采集热榜数据

python正则表达式实战——获取图片

Python项目实战——外汇牌价（附源码）

基于OpenCV的人脸识别

基于OpenCV的图片和视频人脸识别

【验证码的识别】—— 点触式验证码的识别

【验证码的识别】—— 极验验证码的识别

【验证码的识别】—— 图形验证码的识别

python之爬虫基础（1）

python 之爬虫基础（2）

Python之爬虫基础(3)

爬虫的三大库

lxml解析库的使用

如何使用正则表达式

python之requests基础用法

python之requests的高级用法

python之正则表达式【简化版】

python之scrapy框架

python之模拟登录与表单交互

JSON之dumps和loads的区别

多线程比串行进程多出的优势在哪里

【反爬机制】requests请求返回403，我直接放弃了。

代码没有错，但爬取网页无数据输出，因为遇到了异步加载网页

论对python面向对象的理解

如何自己搭建本地代理IP池并验证是否可用

基于OpenCv的人脸识别,翻车了居然识别错误。