自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(190)
  • 收藏
  • 关注

原创 joblib的使用

是 Python 中joblib库的一部分,常用于将 Python 对象序列化并保存到文件中。相比于picklejoblib更适合处理大型数据,因为它在序列化过程中效率更高,特别是在存储包含大量 numpy 数组的数据时。

2024-08-12 16:39:42 403

原创 此扩展在此工作区中被禁用,因为其被定义为在远程扩展主机中运行。

安装python时显示, 此扩展在此工作区中被禁用,因为其被定义为在远程扩展主机中运行。使用VScode打开代码时,无法跳转函数,不提示报错。Ctrl+Shift+P :键入trust ,在服务器中重装python就可以了。在受信任文件夹中添加你的工作目录。

2024-07-19 10:41:21 744

原创 VScode:Install terminal quit with output: 过程试图写入的管道不存在

应该是本地记录服务器信息和现有的产生了冲突。

2024-07-19 09:49:05 693

原创 服务器系统盘存储不够,添加数据盘并挂载(阿里云)

运行结果如下所示,表示当前ECS实例有两块云盘,/dev/vda是系统盘,/dev/vdb是新增数据盘。如果您需要设置开机自动挂载云盘,需要在/etc/fstab中写入新分区信息,启动开机自动挂载分区。其中,1是对应的分区号,通常建议您做分区对齐,以获取更好的云盘性能。其中,/dev/vdb1是数据盘的分区名称,请您根据实际环境替换。其中,/dev/vdb是数据盘的设备名称,请您根据实际环境替换。其中,/dev/vdb是数据盘的设备名称,请您根据实际环境替换。①运行以下命令,开始分区。

2024-07-17 10:44:39 1545

原创 安装元学习库 learn2learn

报错显示没有安装 版本大于 0.28.5 的 cpython 库。然后再安装 learn2learn就成功了。

2024-07-16 16:23:20 213

原创 Visual Studio 2022 安装及使用

下载免费的社区版得到一个.exe文件右键安装选择C++开发,并修改安装位置等待安装点击启动。

2024-07-11 16:28:45 1076

原创 由于找不到 pth由于找不到 pthreadVc2.dll,无法继续执行代码,重新安装程序可能会解决此问题。pthreadVc2.dll,无法继续执行代码,重新安装程序可能会解决此问题。

最近在安装FoldX,启动(win+R/cmd/FoldX)时报错“由于找不到 pthreadCV2.dll,无法继续执行代码,重新安装程序可能会解决此问题。”原因是缺少“pthreadCV2.dll”。将下载的压缩包解压缩,将 dll 文件放置到与 “fold.exe” 同级的文件夹下。根据自己的系统是 32位, 还是 64位 选择相应的版本。在以下位置下载 “PthreadCV2.dll”文件。然后再重新执行就成功了。

2024-07-02 11:16:42 443

原创 文档格式批量转换-LibreOffice安装及使用(Windows)

点击Windows版本下载安装下载的文件安装类型选择自定义,下一步修改软件安装的位置,为了不占用C盘空间,我安装在了D盘。文件类型都没有选择然后点击下一步直至安装完成。

2024-06-26 17:35:00 680

原创 ModuleNotFoundError: No module named ‘transformers.models.mmbt‘

此时的 simpletransformers 的版本是。transformers版本的问题,报错的版本是。将transformers调整至。

2024-04-23 11:37:25 352

原创 pip install seqeval 报错

先运行以下代码,再重新安装就可以了。

2024-04-23 11:12:56 291

原创 报错:ERROR: Command errored out with exit status 1: python setup.py egg_info Check the logs for full c

然后再使用 pip install 安装需要的包,就可以成功安装。

2024-04-22 09:34:50 1528

原创 运行transformers报错check_min_version(“4.40.0.dev0“)

安装的 transformers 版本不对,这里安装了 4.39.3,实际想要安装 4.40.0.dev0。即可安装4.40.0.dev0版本的transformers。)下载transformers的项目。解决:从 huggingface安装。在huggingface (

2024-04-17 11:01:17 726 1

原创 pytorch梯度累积

pytorch每次forward完都会得到一个用于梯度回传的计算图,pytorch构建的计算图是动态的,其实在每次backward后计算图都会从内存中释放掉,但是梯度不会清空的。同时,因为累计了4个batch,那学习率也应该扩大4倍,让更新的步子跨大点。看网上的帖子有讨论对BN层是否有影响,因为BN的估算阶段(计算batch内均值、方差)是在forward阶段完成的,那真实的batch_size放大4倍效果肯定是比通过梯度累加放大4倍效果好的,毕竟计算真实的大batch_size内的均值、方差肯定更精确。

2024-02-27 16:04:32 1044

原创 BPE的使用(代码)

【代码】BPE的使用(代码)

2024-02-27 15:57:37 539

原创 安装miniconda、tensorflow、libcudnn

使用 print(tf.config.list_physical_devices('GPU')) 查看GPU时报错。tensorflow官网,查看版本对应。报以上错误是因为没有安装cudnn。

2024-01-23 16:05:58 677 1

原创 R语言——独立性检验函数、相关性分析函数和相关性检验函数、绘图函数(七)

独立性检验是根据频数信息判断两类因子彼此相关或相互独立的假设检验。所谓独立性就是指变量之间是独立的,没有关系。独立性检验算法:卡方检验、Fisher检验、Cochran-Mantel-Haenszel检验假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。原假设——没有发生备择假设——发生了具体做法:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;

2024-01-03 09:26:02 1602

原创 R语言——R函数、选项参数、数学统计函数(六)

lm()是R语言中经常用到的函数,用来拟合。它是拟合线性模型最基本的函数其中,formula指要拟合的模型形式,data是一个数据框,包含了用于拟合模型的数据。结果对象(本例中是fit)存储在一个列表中,包含了所拟合模型的大量信息。结果会显示:使用函数时要注意函数的返回值类型,比如有些函数返回值是列表,那就不能将其运用到使用向量的环境中。有些函数只能处理矩阵,有些函数既能处理矩阵也能处理数据框,使用函数时,需要知道每个函数的输入数据格式,否则就会出错。

2024-01-03 09:25:24 2137

原创 R语言——reshape2包、tidyr包、dplyr包(五)

使用merge函数【使用 cbind 或 rbind 无法区分哪部分来自 x , 哪部分来自 y。merge(x,y,by)合并函数:by表示根据x和y中的某一列进行合并。如:安装reshape2包:install.packages('reashape2')加载reshape2包:library(reshape2)(使用R中的airquality数据集做演示)

2024-01-02 10:39:47 1889

原创 R语言——数据操作(四)

tapply(x,INDEX,FUN):x是向量或其他,INDEX是一组因子,利用这个因子,可以对第一个参数的数据进行分组。使用 length(rownames()) 和 length(colnames()) 可以查看行数和列数。是指在中心化之后再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。x是数组、矩阵或数据框;sapply(x,FUN):s代表simplify,x是列表,返回值是向量或者矩阵。lapply(x,FUN):l 代表list,x是列表,返回值是列表。

2024-01-02 09:36:12 1681

原创 pytorch 分布式训练

神经网络训练加速的最简单方法是使用GPU,对弈神经网络中常规操作(矩阵乘法和加法)GPU运算速度要倍超于CPU。随着模型或数据集越来越大,一个GPU很快就会变得不足。例如,BERT和GPT-2等大型语言模型是在数百个GPU上训练的。对于多GPU训练,需要一种在不同GPU之间对模型和数据进行切分和调度的方法。PyTorch是非常流行的深度学习框架,它在主流框架中对于灵活性和易用性的平衡最好。和。DataParallel更易于使用(只需简单包装单GPU模型)。

2023-12-26 13:57:05 2949

原创 pip freeze 导出的requirements.txt文件含有 @file

使用 pip freeze > requirements.txt 导出的文件中含有 @file://解决:pip list --format=freeze > requirements.txt。原因是这种方法生成的文件只能用于本地环境,无法供他们使用。使用这个文件在其他环境下安装就会出现 找不到路径的错误。使用以下方式生成文件。

2023-12-26 10:13:02 1061

原创 R语言——文件读写(三)

追加写入:write.table(b, file = 'E:\\R\\R_file\\new_file.txt',sep = ',', row.names = F,col.names = F, quote = F,append = T)write.table(b, file = 'E:\\R\\R_file\\new_file.csv',sep = ',', row.names = F):定义row.names为FALSE, 不添加行号。header:作用是在读取数据时,是否将第一行数据作为变量的名称。

2023-12-20 16:42:13 4399

原创 R语言——基本操作(二)

创建矩阵,nrow 和 ncol 可以省略,但其值必须满足分配条件,否则会报错只写一个值则自动分配,默认按列分配byrow属性可以控制矩阵按行排列定义矩阵行和列的名字dim(x):输出x的维度dim(x)

2023-12-20 16:41:44 1587 1

原创 R语言——基本操作(一)

查看所有历史记录,比直接使用 ↑ 查找更方便中断操作,可中断未完成的操作(未完成回车后是 + ),也可以清空命令。清空屏幕显示R studio中所有的快捷操作。

2023-12-18 09:24:45 9350 1

原创 多进程运行含有任意参数的函数、为什么multiprosessing会进行多次初始化

使用偏函数:偏函数有点像数学中的偏导数,可以让我们只关注其中的某一个变量而不考虑其他变量的影响。如以下代码中,我们要将set_seq、tokenizer和model作为变量传入“Seq_to_vec”函数中。particial函数中,“Seq_to_vec”是一个函数,tokenizer和model是不变的量,“map_async”中particial_func为偏函数,set_seq为可迭代对象。

2023-12-18 09:23:31 1148

原创 AttributeError: Can‘t get attribute ‘WordVocab‘ on <module ‘__main__‘ from ‘genetic_algorithm.py‘>

原因:就像我们在保存模型的时候有两种方式,一种是保存整个模型,虽然很大但是使用方便;这里也是一样的,vocab.pkl在加载时也需要找到其依赖的类,而在报错信息中也说明了,需要导入的类是WordVocab。背景:在看代码的时候想看看一个pkl文件的文件结构和里面的数据,于是就用pickle.load打开,但是出现了AttributeError: Can't get attribute 'WordVocab' on

2023-12-15 09:43:03 573

原创 scrapy post请求——百度翻译(十四)

scrapy处理 post 请求爬取百度翻译界面。

2023-12-14 09:13:52 581

原创 scrapy ——链接提取器之爬取读书网数据(十三)

1.继承自 scrapy.spider2.CrawlSpider可以定义规则。在解析 html 的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发送请求。所以,如果有需要跟进链接的请求,意思就是爬取了网页之后,需要提取链接在此爬取,使用CrawlSpider是非常合适的。3.提取链接链接提取器,在这里就可以写规则提取指定链接allow=(), # (常用)正则表达式 提取符合正则的链接deny=(), # 正则表达式,不提取符合条件的链接。

2023-12-14 09:13:07 1109

原创 爬虫 scrapy ——获取电影名及图片(十二)

爬取电影天堂的电影名、图片,图片地址位于电影名的下一层链接中。获取标题,点击链接再获取这一页的图片。

2023-12-13 09:16:27 407

原创 爬虫 scrapy ——scrapy shell调试及下载当当网数据(十一)

什么是scrapy shell?scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码,不过您可以将其作为正常的python终端,在上面测任何的python代码。该终端是用来测试Xpath或css表达式,查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时,一旦熟悉了scrapy终端后,您会发现其在开发和调试spider时发挥的最大作用。定义要获取的图片、书名和价格# 通俗地讲就是你下载的数据都有什么# 爬取图片。

2023-12-13 09:16:22 1220 2

原创 爬虫 scrapy —基本使用及工作原理(十)

scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。爬取更快,程序更加健壮。一系列的程序中。爬取更快,程序更加健壮。

2023-12-12 09:46:27 1379

原创 爬虫 requests——获取网络请求(九)

抓登录界面的接口:登录界面,输入错的信息点击登录。找到以“login”开头的名称,可以看到登录界面的参数。r.encoding:访问或定制编码方式。r.status code:响应的状态码。类型:models.Response。r.content:响应的字节类型。在源代码中找到这两个变量,这两个变量被称为隐藏域。r.headers:响应的头信息。打码平台可以自动识别验证码,如:超级鹰打码平台。r.url:获取请求的url。r.text:获取网站源码。抓取登录接口的,发送post请求。# 1. 隐藏域问题。

2023-12-12 09:43:38 887

原创 爬虫解析——Xpath的安装及使用(五)

进入chrome应用商店搜索 Xpath helpler选择这个安装怎么看扩展是否安装成功呢?随便打开一个页面,然后 按快捷键 Ctrl+Shift+X出现这个黑色的框框就算安装成功了。

2023-12-11 09:11:05 4371

原创 变相增大BatchSize——梯度累积

pytorch每次forward完都会得到一个用于梯度回传的计算图,pytorch构建的计算图是动态的,其实在每次backward后计算图都会从内存中释放掉,但是梯度不会清空的。看网上的帖子有讨论对BN层是否有影响,因为BN的估算阶段(计算batch内均值、方差)是在forward阶段完成的,那真实的batch_size放大4倍效果肯定是比通过梯度累加放大4倍效果好的,毕竟计算真实的大batch_size内的均值、方差肯定更精确。同时,因为累计了4个batch,那学习率也应该扩大4倍,让更新的步子跨大点。

2023-12-11 09:07:43 526

原创 爬虫解析-BeautifulSoup-bs4(七)

beautifulsoup:和lxml一样,是一个html的解析器,主要功能也是解析和提取数据。优缺点:缺点:没有lxml效率高优点:接口更加人性化,使用方便。

2023-12-08 10:02:41 1791

原创 爬虫 selenium语法 (八)

模拟浏览器功能,自动执行网页中的js代码,实现动态加载。path = 谷歌浏览器驱动文件路径url = 要访问的网址:自动化要做的就是模拟鼠标和键盘来操作这些元素,如点击、输入等等。操作这些元素前首先要找到它们,webdriver提供很多定位元素的方法。(1)find_element(By.ID, 'id 名')(2)find_element(By.NAME, 'name 名')(3)find_elements(By.XPATH, 'Xpath语法')

2023-12-08 09:56:51 2261

原创 爬虫解析-jsonpath (六)

jsonpath只能解析本地文件打开检查中的网络,当鼠标悬浮在“深圳”这个位置上时,就会出现一个下拉列表,我门点击左侧新出现的名称后,从预览中可以看到与上面对应的所有的城市名称,我们就可以用jsonpath把这些城市都爬下来。

2023-12-07 09:23:55 693

原创 urllib 异常、cookie、handler及代理(四)

4.通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加健壮,可以通过try-except进行捕捉异常,异常有两类URLError和HTTPError。3.http错误:http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题。2.导入的包urllib.error.HTTPError urllib.error.URLError。1.HTTPError类是URLError类的子类。

2023-12-07 09:21:29 1345

原创 urllib爬虫 应用实例(三)

设置url,检查 --> 网络 --> 全部 --> top_list --> 标头 --> 请求URL。目标:获取豆瓣电影第一页的数据,并保存为json文件。

2023-12-06 09:26:10 717

原创 urllib 的 get 请求和 post 请求(二)

目标:下载数据知识点:urllib.request.urlretrieve()下载使用urllib下载网页、图片和视频下载图片:二、目标:爬取整个网页知识点:学习一种反爬方法,并定制请求对象。

2023-12-06 09:21:58 1708

遥感影像批量裁剪、数据切分、数据增强、位深度转换代码

代码包括遥感影像的单图裁剪、批量裁剪;训练集、验证集和测试集的切分;目标检测和语义分割影像的数据增强;32/16位深度转8位深度。 1、主要用于深度学习领域的遥感影像数据处理,主要针对输入数据为tif,转为jpg、png格式,并将数据裁剪为网络可以训练的大小,可以手动调节裁剪步长(即有重叠或无重叠),可以对单张图像进行裁剪,也可对文件夹内的所有图片进行裁剪。 2、可以根据想要划分的训练集、验证集和测试集的比例进行划分,如9:1:1. 3、本代码还提供了用于目标检测和语义分割任务的数据的增强,主要包括仿射变换、平移翻转等。 4、此外,代码还针对遥感影像位深度32或者16的转为8位的操作。 本代码可修改性强,为方便理解,每部分代码都进行的标注。本文件共包含10个python文件。

2022-09-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除