python
文章平均质量分 67
木木em哈哈
09,我太想进步了!
你看,又急。
——《Python领域新星创作者》(
展开
-
【2024】利用python爬取csdn的博客用于迁移到hexo,hugo,wordpress...
可以的话点个star。原创 2024-03-03 13:34:41 · 480 阅读 · 0 评论 -
爬取博客的图片并且将它存储到响应的目录
在上一篇博客中我们介绍了如何爬取博客链接利用python爬取本站的所有博客链接-CSDN博客定义一个json配置文件方便管理现在文件只有用户名称,后续可加配置读取用户名称,并且将其拼接成csdn个人博客链接type=blog"在这一篇博客中我们介绍如何爬取博客中文章的图片。原创 2024-03-02 10:59:23 · 585 阅读 · 0 评论 -
利用python爬取本站的所有博客链接
定义一个json配置文件方便管理现在文件只有用户名称,后续可加配置读取用户名称,并且将其拼接成csdn个人博客链接type=blog"原创 2024-02-29 17:17:32 · 1047 阅读 · 0 评论 -
简单的学习一下用python做一些后台挂机的项目
由于自己最近在玩崩铁近几年的米家游戏都不能跳过剧情(烦~按键精灵是个好东西,但是他必须要前台挂着(得寸进尺。。。我想要做的是我一边挂着剧情后台自动点击,一边做其他的事情(很美好嘞然后一如既往出了一系列问题(不然我觉得早就有人做出来了,目前就卡在这,以下是我的探索过程)原创 2023-08-28 22:42:23 · 526 阅读 · 1 评论 -
用python从零开始做一个最简单的小说爬虫带GUI界面(3/3)
本章内容讲的是给出了小说文章链接的情况下,如何爬取小说异步是一种比多线程高效得多的并发模型,是无序的,为了完成某个任务,在执行的过程中,不同程序单元之间过程中无需通信协调,也能完成任务的方式,也就是说不相关的程序单元之间可以是异步的。简单来说就是可以类比小学的一种数学——你可以再烧开水的时候洗菜,在煮饭的时候切菜的那类问题在python程序中就是你在等待网络回复的数据包时候可以继续发送其他的数据包起到资源利用趋于最大化的趋势。原创 2023-08-25 11:33:21 · 6212 阅读 · 1 评论 -
用python从零开始做一个最简单的小说爬虫带GUI界面(2/3)
前一章博客我们讲了怎么通过PyQt5来制作图形化界面,并且进行一些基本设置接下来两章我们主要讲核心爬虫代码的实现。原创 2023-08-24 11:30:04 · 831 阅读 · 0 评论 -
用python从零开始做一个最简单的小说爬虫带GUI界面(1/3)
而且当时的爬虫代码有许多问题但是最近学了PyQt5想着搞个带界面的爬虫玩玩那就啥也不说开搞!!!原创 2023-08-20 19:11:06 · 657 阅读 · 0 评论 -
用python来爬取某鱼的商品信息(2/2)
首先要说的是这个通过python不如通过app抓包来的稳定页面中你登录的cookie的失效时间是不确定的,所以你可能需要经常更新cookie(看个人情况)无法频繁(比如5分钟一次)搜索,否则会跳滑块验证,或者你有多个账号也可以搞(大概也就这个流程)写出来的代码只是提取出来网页源代码——其实都提取出网页源代码了,使用就只有一个筛选了(csdn上有大把的优质博主和大佬教你通过源代码过滤有用的信息)当然如果需要的话我可以再水一篇博客。原创 2023-08-13 16:56:25 · 8715 阅读 · 4 评论 -
用python来爬取某鱼的商品信息(1/2)
本章讲理论,后面一节讲代码拿来练练手的,练练selenium包,实战一下(本来想拿来练手的,没想到他喵的有挺多防爬的,直接开局就困难难度我靠,凸(艹皿艹 ))找到可以爬取的网站然后添加cookie然后刷新界面就可以发现搜索结果出来了这一次实战经历真的让我遇到了selenium许多奇奇怪怪的反爬手段,也是让我可以大幅度提升自己实战经验的一个经历,前前后后排bug,绕反爬,这一个项目打了整整两天。累diet原创 2023-08-11 20:18:59 · 9769 阅读 · 11 评论 -
python库的etree函数转换源代码时只有一行代码
-注意 这里少了一个标签-->因为为utf-8格式所以在输入中文是打印出来的也不是中文,而是一个诸如。,但是etree基于c语言编写运行的速度一般来说比前者要快。原因也十分简单,因为etree函数需要传递的编码格式为'既然要utf-8,那我就把编码格式转成utf-8不就行了。所以我铁了心了要用它有什么办法吗?而python中变量的编码格式为。格式不同,传递的时候当然会出错。原创 2023-06-08 23:13:52 · 155 阅读 · 0 评论 -
python爬虫“indexerror: list index out of range”错误及其解决办法
python列表为空的原因导致索引错误,继而导致找不到索引不要图省事,至少在报错的时候最好用最基础的方法试一遍。原创 2023-06-08 07:00:00 · 2208 阅读 · 0 评论 -
pip永久换源和临时换源的方法
因为在pip下载python包时由于服务器架设在国外这样国内访问掉包率和速度会很慢后一种还好,前一种下载体积大的包不可避免会超时,这样就要用到国内的镜像源了可能还会出现错误ERROR: Could not find a version that satisfies the requirement pandas (from versions: none)ERROR: No matching distribution found for pandas。原创 2023-06-06 22:41:01 · 3372 阅读 · 0 评论 -
用python爬取博客的图片链接(入个门)
许多网站为了防止有人恶意爬取,网站就会做反爬取就要自己定义头文件,以便于可以正常显示源代码比如csdn不定义User-Agent返回的源代码就为空按f12打开控制台,打开网络(network)刷新网页,随便点击一个链接在请求的文件里有一般用到的就是User-Agent,host,cookie,Accept和connection这边我就定义一个头文件变量。原创 2023-06-06 04:30:00 · 117 阅读 · 0 评论 -
用python实现划分自定义划分训练集,测试集和验证集
用于yolo分配训练集测试集以及验证集。原创 2023-06-03 15:21:35 · 1745 阅读 · 0 评论 -
“13”行纯python代码把目录下相应后缀名称的文件写入txt中
可以用于yolo项目中所需要的写入图片的绝对路径那一个环节。也可以用于其他的情况(博主想不出来)原创 2023-06-02 23:05:35 · 104 阅读 · 0 评论 -
(win10)yolov5训练自己的数据集
打开上面的标注数据的工具(原来用于dnf挂机的脚本工具,用了发现他的自动截图功能不错,而且标记出来的数据labels可以直接用,不用xml转txt了)选择使用GPU还是CPU。最后再试试调小 --batch-size,降低 --epoch。文件夹用于放置你标记的数据集的数据xml或者是txt,再在VOCData文件夹里面创建一个。epochs:指的就是训练过程中整个数据集将被迭代(训练)了多少次,显卡不行你就调小点。因为是用刚刚的应用程序来标注的图片文件所以就不需要把xml转为yolo格式的文件了。原创 2023-06-02 09:49:26 · 631 阅读 · 0 评论 -
通过python用超级简单和基本的方法实现求导数
优点是泛用性非常好,也十分好理解,在合适的范围,函数可以变得不规则,但是依旧可以求出导数的大约值,并不会与真实值差的很多。缺点很明显在数据十分大的时候误差也会越来越大,原因就是MIN的值还是太大了。直接用导数的定义就行。原创 2023-05-20 15:34:14 · 925 阅读 · 0 评论 -
数据处理——用numpy的empty等方法把许多numpy数组变为一个大的每个独立的数组
在数据处理的过程有时我们为了方便管理会把多个小数组合并为一个大数组,但是初学者用简单的多个array[]合并会遇到一个问题。需要注意的是在empty中如果np.empty([x,y])x不为0的话新生成x个1*y维数组,值随机所以最好用0。这样也许不是我们想要的,我们想要的是多个二维数组而不是一个单一的一维数组。同样你可以在输入数据的时候就把多少个存储下来然后用其他的函数去修改形状也行。缺点是他好像他只可以用来固定1*n维的数组(有知道的评论区说一下)之前不为0给我创建了x个1*y的随机值。原创 2023-05-19 02:00:00 · 130 阅读 · 0 评论 -
anaconda导出离线包在新设备上安装python环境
前不久在学校做项目的时候用学校的电脑,但是学校的python环境需要配置,不巧的是学校网络不好而且每次开机都会重置电脑,所以我萌生出要做一个离线包拷贝到u盘里随插随用。(虽然pycharm做项目可以保存环境,但是我导入到新版本的pycharm就失效了不知道是不是因为版本的问题)正好我自己的电脑上有anaconda的环境我只要把他导入出来就行了。或者把他粘贴到pycahrm的env目录下的Scripts也行。先进入搭建出来的环境(env_name为你搭建环境的名称 )然后导入配置的环境的列表。原创 2023-05-18 20:17:34 · 534 阅读 · 0 评论 -
记录PIP安装出现的一系列错误
反应过来这是因为用的是国内源所以下载速度慢,而且容易丢包,而且要命的是pip不支持断点续传结果文件下载失败,文件都不完整,安装出现时候自然出现一系列错误。注意看,我在打代码时忘记打-i原本应该为。因为过于愚蠢结果百度的搜不出来。执行前面的命令终于安装成功了。那好办我用国内源不就行了?在安装pandas时运行。我还没发现,结果出现报错。原创 2023-04-26 23:06:38 · 1280 阅读 · 0 评论