自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(824)
  • 资源 (1)
  • 收藏
  • 关注

原创 stable-diffusion-webui版本更迭

stable-diffusion-webui安装记录之第二次踩坑记录。

2023-07-19 15:04:48 1315

原创 基于清华chatglm-6b模型的向量化检索问答

基于本地知识库的智能问答。

2023-06-13 16:18:35 1552

原创 stable-diffusion-webui服务器centos部署实践(成功)

stable-diffusion-webui部署使用,生成更优秀的图片。

2023-05-22 11:52:37 1867 1

原创 优秀图片生成参数-stable-diffusion-webui

stable-diffusion-webui优秀生图来了。

2023-05-18 19:57:08 817

原创 stable- diffusion新版本V2效果有提升吗?

stable- diffusion V2 就丝滑好用了吗?

2023-04-21 19:50:38 1559

原创 对话大模型体验(最后附源码)

chatgpt国内版本初步上线(仅供参考)

2023-03-15 15:42:43 1206 1

原创 sentence Bert解读及代码示例

SBERT论文详解并附代码。STS任务

2022-12-08 23:24:37 1302 4

原创 Bert论文解读及相关代码实践

bert论文解读及微调方法

2022-12-08 12:31:29 776

原创 信息抽取/实体关系抽取之UIE

飞酱NLP之信息抽取,知识抽取,关系抽取UIE

2022-12-06 16:34:12 4939 2

原创 fastTEXT论文解读并附实例代码

fastTEXT如何做压缩的

2022-12-03 16:39:53 915

原创 NLP基本业务范围之二

NLP基本业务:阅读理解,因果模型,文本生成,翻译

2022-12-02 15:12:20 1322

原创 NLP基本业务范围

NLP基本业务,纠错,掩蔽词MASK,NER,情感分析,文本摘要

2022-11-30 19:19:52 743

原创 fastTEXT入门自然语言处理NLP

fastTEXT自然语言处理,词向量,文本分类

2022-11-27 23:11:29 869

原创 告诸位技术同胞大佬!!!

近日,发现其他网站大量复制粘贴我这里的博文,既不注明原文链接,也没有注明作者,这样的网站毫无底线,完全是流氓网站。鉴于这种情况的出现,本人今天以后的博文全部只能粉丝可见。下面我要挨个投诉,申诉,直到删除复制的我的博文,不限于起诉维权,反正一无所有,咱就死磕到底!!!For Video Recommendation in Deep learning QQ Group 277356808For Speech, Image, Videoin deep learning ...

2020-06-05 10:12:14 1232 1

原创 vm.max_map_count 表示啥意思啊?通俗易懂点,有单位么?262144表示啥意思?

是 Linux 内核的一个参数,用于限制一个进程可以拥有的最大内存映射区域数量。Elasticsearch 需要较高的值来处理大量数据文件。通过临时或永久设置的值,你可以解决 Elasticsearch 启动失败的问题。是一个无单位的整数值,它表示一个进程可以拥有的最大内存映射区域数量。这个值是一个纯粹的计数,没有单位。Elasticsearch 需要处理大量的数据文件,并且为了高效地访问这些数据,它会使用内存映射技术。

2024-11-01 17:57:52 923

原创 ERROR: [1] bootstrap checks failed. You must address the points described in the following [1] lines

通过临时或永久设置的值,你应该能够解决太低的问题。确保系统的其他资源限制也足够高,并查看详细的日志文件以获取更多信息。

2024-11-01 17:41:03 767

原创 OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x0000001001000000, 33235664896, 0) failed

Elasticsearch 启动失败通常与内存不足有关。通过调整 JVM 参数、增加系统内存或交换空间,以及检查系统资源使用情况,可以解决这个问题。如果问题仍然存在,建议查看详细的错误日志以获取更多信息。

2024-11-01 17:07:45 834

原创 处理后的视频如何加上音频信息?

总方案:原来模型对图像进行每帧处理,保留后的视频自然失去了audio信息,因此,原输出video加上audio即可,也采用ffmpeg处理。imageio库用于读取和写入视频文件,并且你正在使用模型处理每一帧图像。然而,这段代码只处理了视频的图像部分,并没有涉及到音频的处理。因此,原始视频的音频信息不会被保留在输出视频中。要保留原始视频的音频信息,你需要额外处理音频部分,并将音频与处理后的视频重新合并。:使用ffmpeg或其他工具提取原始视频的音频。:使用你现有的代码处理视频帧。:使用ffmpeg。

2024-11-01 10:38:13 494

原创 centos 选什么Distribution?flash安装

这个错误的主要原因是flash-attn模块依赖于 CUDA,但没有正确配置CUDA_HOME环境变量。通过设置CUDA_HOME环境变量并确保 CUDA 工具包已正确安装,你应该能够解决这个问题。三,上NVIDIA官网下载cuda我就选了RHEL这个,下载吧,试试最后安装失败,说需要GCC!!WARNING!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

2024-10-31 16:53:53 84

原创 ffmpeg 提取mp4文件中的音频文件并保存

要从一个 MP4 文件中提取音频并保存为单独的音频文件,可以使用ffmpeg工具。

2024-10-30 17:45:50 495

原创 git lfs 安装方法

Git LFS(Large File Storage)是一个用于管理大型文件的 Git 扩展。

2024-10-30 13:33:58 208

原创 扫描开放端口的方法及代码实现telnet

背景:一个服务器不知道开放多少端口,也不知道有多少端口能用,因此扫描所有端口。主要就是采用telnet来实现,挨个进行for训练`timeout` 命令的参数设置是正确的,但为了确保 `telnet` 命令在 0.1 秒内没有响应时能够正确处理,我们需要确保 `timeout` 命令的退出状态能够正确传递给 `if` 语句。此外,`telnet` 命令在连接成功后会等待用户输入,因此我们需要在 `telnet` 命令中发送一个 `quit` 命令来关闭连接。以下是脚本:```bash。

2024-10-29 16:12:27 372

原创 nltk.download(‘averaged_perceptron_tagger_eng‘)下载数据失败

2,直接下载上述地址,或者git clone上述主页地址即可,或者gitee也可,或者直接下载zip文件。3,将下载的数据解压,放到nltk.data.path 下面。1,在github上找到该数据地址,比如在这里面。

2024-10-29 16:06:31 127

原创 Centos安装ffmpeg的方法

如果你需要最新版本的 FFmpeg,或者 RPM Fusion 仓库中的版本不满足需求,可以选择从源码编译安装。如果你使用的是 CentOS 8 或更高版本,可以使用 Snap 来安装 FFmpeg。- **方法一**:使用 RPM Fusion 仓库安装,适合大多数用户,简单快捷。- **方法三**:使用 Snap 安装,适合 CentOS 8 及以上版本的用户。- **方法二**:从源码编译安装,适合需要最新版本或特定功能的用户。安装完成后,可以通过以下命令验证 FFmpeg 是否安装成功。

2024-10-29 10:52:23 325

原创 ValueError: Images of type float must be between -1 and 1.

如果你希望 `gradio` 库支持超出 `-1` 到 `1` 范围的浮点图像数组,你可以修改 `gradio` 库的代码。这个错误表明你正在尝试将一个浮点类型的图像数组转换为 `PIL` 图像,但该图像数组的值不在 `-1` 到 `1` 的范围内。`gradio` 库要求浮点类型的图像数组的值必须在 `-1` 到 `1` 之间。首先,确保你的图像数组的值在 `-1` 到 `1` 之间。这段代码将图像数组的值缩放到 `0` 到 `255` 之间,并将其类型转换为 `uint8`。

2024-10-25 16:20:35 883

原创 ImportError: cannot import name ‘Literal‘ from ‘typing‘

Literal 是在 Python 3.8 中引入的,因此在 Python 3.7 中直接导入会引发 ImportError。2. 使用 typing_extensions 包: 安装 typing_extensions 包,它提供了对新类型提示的向后兼容性支持。1. 升级 Python 版本: 升级到 Python 3.8 或更高版本,这样可以直接使用 Literal。背景:py37版本引入报错,据说是38版本才有的,因而报错,需要安装扩展包才能解决。确保你的代码在修改后能够正常运行,不再出现导入错误。

2024-10-25 15:23:44 59

原创 大模型分析:不要空腹喝咖啡

**建议**:如果你经常出现这种情况,建议早餐吃得丰富一些,避免空腹喝咖啡。- **建议**:如果这种情况经常发生,建议你进行全面的健康评估,包括检查血糖水平、甲状腺功能等,以排除其他潜在的健康问题。- **建议**:如果你经常依赖咖啡因来提神,建议逐渐减少摄入量,培养良好的睡眠习惯,以避免咖啡因依赖和崩溃。- **原因**:有些人对咖啡因的耐受性较低,摄入咖啡因后可能会出现不适症状,如心悸、焦虑、乏力等。- **建议**:如果你对咖啡因敏感,建议减少咖啡的摄入量,或者选择低咖啡因或无咖啡因的饮品。

2024-10-24 17:22:59 185

原创 shell 命令history 显示今天的操作

`grep "$(date +'%Y-%m-%d')"`:使用 `grep` 命令过滤出包含今天日期的记录。`date +'%Y-%m-%d'` 会生成今天的日期(例如 `2023-10-05`),然后 `grep` 会匹配包含这个日期的行。要显示今天的操作,你可以结合 `history` 和 `grep` 命令来过滤出今天的记录。- 如果你使用的是 `zsh` shell,默认情况下 `history` 命令会记录时间戳。你可以直接使用 `history` 命令来查看今天的操作。

2024-10-24 15:44:32 36

原创 python构建flask服务用于视频文件的处理后返回

**参数处理**:使用 `request.form.get('style', 'default')` 获取 `style` 参数,如果没有提供 `style` 参数,则使用默认值 `'default'`。背景:一个改进的 Flask 服务示例,它接收一个 MP4 文件和一个名为 `style` 的参数,并将上传的 MP4 文件保存在服务器的本地,然后返回一个预先存在的 MP4 文件。- **文件处理**:接收上传的 MP4 文件,并保存到本地目录 `UPLOAD_FOLDER`。

2024-10-24 14:06:48 636

原创 处理txt文件,每行是一个字符串,要求将每行字符串len小于2的行去掉

`awk` 和 `sed` 都是强大的文本处理工具,适用于不同的场景。`^` 表示行首,`$` 表示行尾,`.\{2,\}` 表示至少两个字符。- `length($0) >= 2`:`$0` 表示当前行,`length($0)` 计算当前行的长度。- 接受两个参数:`input_file` 和 `output_file`,分别表示输入文件和输出文件的路径。- `input_file` 是输入文件的路径,`output_file` 是输出文件的路径。- `-n`:禁止自动打印模式空间的内容。

2024-10-24 10:21:00 514

原创 python数据numpy进行L2范数归一化

1. **`np.linalg.norm(array, axis=1, keepdims=True)`**: 计算每一行的L2范数。L2归一化的目标是将向量的每个元素除以向量的L2范数(即向量的欧几里得长度)。- 如果向量的L2范数为0(即向量全为0),则归一化操作会导致除以0的错误。2. **`array / l2_norms`**: 将数组的每一行除以对应的L2范数,得到归一化后的数组。2. **`vector / l2_norm`**: 将向量的每个元素除以L2范数,得到归一化后的向量。

2024-10-23 15:30:08 1224

原创 大模型与地球物理结合的研究方向

**多源数据融合**:利用多模态学习模型(如Transformer)将不同类型的地球物理数据(如地震、重力、电磁等)进行融合,提高数据解释的准确性。- **地震波形分析**:利用深度学习模型(如卷积神经网络,CNN)对地震波形数据进行分类和识别,帮助识别地震事件、震源机制和地下结构。- **虚拟实验平台**:利用生成模型和虚拟现实技术,创建地球物理实验的虚拟平台,帮助学生和研究人员进行实验和模拟。- **数据同化**:通过深度学习模型进行数据同化,将观测数据与模拟数据结合起来,提高模拟结果的精度。

2024-10-23 13:39:59 281

原创 大模型LLM微调的数据集及使用方法

通过以上步骤,你可以使用公开数据集进行大型语言模型的微调。关键步骤包括数据加载、预处理、模型微调和评估。使用 Hugging Face 的 Transformers 库可以简化这些步骤,快速实现模型的微调。

2024-10-23 10:35:59 799

原创 labelstudio 标注方法及个人部署服务

2. **标注**:根据项目的配置,使用 Label Studio 提供的标注工具进行标注。首先,你需要收集大量的文本数据,这些数据可以是公开的问答数据集、论坛帖子、新闻文章、书籍等。- **标注配置**:根据你的需求配置标注任务。- **优化配置**:根据服务器的性能调整 Label Studio 的配置,如并发任务数、内存限制等。标注完成后,你可以使用标注好的问答对数据训练一个大模型。- **标注工具**:使用 Label Studio 提供的标注工具进行标注,避免手动输入错误。

2024-10-23 10:20:57 790

原创 声纹复刻方案并进行tts文本转语音

有一个机器人学自己说话,就像鹦鹉学舌一样,不过声音更像,就好像真人一样,这种是不是在面点zhapian中分不清了,woc,听起来是不是很可怕,但技术无过,重要的是使用技术的人。3. 生成语音:我们定义了一个 text_to_speech 函数,该函数接受文本和目标声音的音频样本,生成相应的语音,并保存为 WAV 文件。4. 准备声音样本: 为了进行声音复刻,我们需要一个目标声音的音频样本。声音clone,声音复刻,声纹复刻,clone你的声音。# 如果有目标声音的音频样本,则使用它。

2024-10-18 14:30:20 334

原创 法律文书审查专项使用大模型实现

': {'符合法律法规': True, '符合法规的表述': None},results[sentence] = {"符合法律法规": True, "符合法规的表述": None}"合同法": ["合同", "签订", "双方", "公平", "对等", "合理", "违约", "赔偿"],"公司法": ["公司", "社会代码", "注册", "股东", "董事会", "法定代表人"],"劳动法": ["劳动合同", "工资", "工时", "休假", "社会保险", "劳动争议"],

2024-10-18 14:10:12 110

原创 用大模型或者预训练模型对图片进行OCR

要使用预训练模型对图片进行OCR(光学字符识别)并将识别结果标记在图片原文的下方,你可以使用Hugging Face上的`transformers`库和`pytesseract`库。- **TrOCR模型**: 我们使用的是Microsoft提供的TrOCR模型,它是一个基于Transformer的OCR模型,适用于手写和打印文本。- **pytesseract**: 虽然我们主要使用TrOCR模型进行OCR,但`pytesseract`库可以用于处理图像和文本的绘制。# 使用TrOCR进行OCR。

2024-10-18 13:55:23 391

原创 用大模型或者向量模型比如huggingface上的模型,处理一批图片,对该图片进行分类,检索

2. **图像特征提取**:使用预训练的模型(如CLIP、ResNet等)提取图像的特征向量,然后进行相似度检索。1. **图像分类**:使用预训练的图像分类模型(如ResNet、EfficientNet等)对图片进行分类。- **图像特征提取与检索**:使用CLIP模型提取图像特征向量,并通过余弦相似度或向量数据库进行检索。我们将使用Hugging Face的`transformers`库中的预训练模型来进行图像分类。- **图像分类**:使用预训练的图像分类模型(如ViT)对图片进行分类。

2024-10-18 13:50:56 273

原创 modelscope与opencv及numpy的安装bug

因为分开安装cv2和np仍旧会出现上述类似的错误,因此,我将conda 虚拟环境下的opencv-python* 及numpy* 全部删除,然后安装一个比较旧的版本cv2,安装了半天还编译了半天,结果需要cmake,我擦,放弃这个,安装成功,注意,服务打开多个界面时,一个界面安装pip库,一个进入python测试pip库,但是每次安装都要退出(quit())python后再次进入进行测试,否则有缓存的可能,引入的库并不是最新安装的。所有版本如下:注意,pip版本为24.0,采用conda解决。

2024-10-16 10:44:59 350

原创 shell:去掉符合条件的行,对文件进行操作

如果你想要对 `txt` 文件进行操作,去掉包含“帅哥”但不包含“美女”也不包含“少妇”的行,可以使用 `grep` 命令结合 `sed` 或 `awk` 来实现。3. `> temp.txt && mv temp.txt example.txt`:将结果写入临时文件 `temp.txt`,然后重命名为 `example.txt`。2. `> temp.txt && mv temp.txt example.txt`:将结果写入临时文件 `temp.txt`,然后重命名为 `example.txt`。

2024-10-15 15:50:02 107

brew安装shell文件,直接bash执行即可

brew安装shell文件,直接bash执行即可,mac电脑专用,其他系统不支持哈。

2024-07-17

河南省⼯业学校校区⼯作⼈员试题卷子往年题库

源于互联网,自己下载的,其中内容应该靠谱。

2023-12-28

stable-diffusion-webui启动文件

stable-diffusion-webui启动文件,用于启动环境中的参数输入,与cmd参数输入相结合,其他参数修改,包括pip,git环境修改,git的环境请手动下载,这里注释掉了。

2023-07-19

requirements.txt of the stable-diffusion-webui

stable-diffusion-webui的pip 安装记录,直接由pip freeze而来,比较全面,而且基本上都是必须的环境,多余的环境很少。直接pip install -r the_file.txt 即可,相当方便。

2023-07-19

stable-diffusion-webui安装包,亲测有效

stable-diffusion-webui安装包,亲测有效。非常可行的包,不过环境需要自己安装的,安装一下吧。有些环境在repo里安装即可。

2023-07-19

stable-diffusion-webui启动文件launch.py

用于启动stable-diffusion-webui,修改后的脚本,第一版本,可行,启动无误。无需全局环境,可以像其他库一样设置自己的虚拟python环境,非常nice的,省时省力。

2023-07-19

diel-data数据集,用来实验与验证GCN模型的,推荐算法中的GCN模型,当然也是最初的分类模型

diel_data数据集,用来实验与验证GCN模型的,推荐算法中的GCN模型,当然也是最初的分类模型,该模型数据的难点在于构建网络节点数据,具体可以看下GCN中的解读。或者参考我的博文GCN的解读。

2023-06-22

Avazu推荐算法必备数据集,无论是召回还是排序都是必备的数据集

Avazu推荐算法必备数据集,无论是召回还是排序都是必备的数据集。 版本x1,即可用于推荐算法中的指标对比,也可以用来检验自己的算法是否超过前人的研究成果,是用来发paper的必备测试数据集,比如DeepFm,din,等,都可以用来测试,实践。不妨下载来看看数据格式,这里面的数据集是大多数的通用的数据。 另外,数据集具有验证集和测试集,可用来训练中和训练后进行测试,当然也可使用其中一个作为测试。 推荐算法,模型必备数据集,wide&deep,LR,DCN,图模型,等。

2023-06-22

cora-v2数据集,用于推荐算法中的GCN进行测试

cora_v2数据集,用于推荐算法中的GCN进行测试 也可以用于推荐算法中其他方法的测试,作为经典的数据集,具有对比的作用。

2023-06-22

python库peft安装包

可以采用pip安装的peft安装包,包括makefile文件,此库非常有用,依赖库有torch及python,一些版本号可以自己修改,具体可查看里面的文件。该安装包用于大模型微调使用,是必不可少的依赖。

2023-05-05

自然语言处理用的二分类微调数据SST,可以参考huggingface来具体操作训练

自然语言处理,预训练模型微调专用数据,SST2 文本分类,情感分类等等类似下游任务都可以用。

2023-02-14

用于NLP预训练模型的微调,应用场景包括language model 和text generation 自然语言处理必备资源

英文维基文本,包含训练集,测试集,验证集。 来吧,下载训练自己的模型,微调下吧。

2023-02-14

attention is all you need解读及pytorch代码

Attention is all you need 解读及详细代码,每个模块都有注释,代码详细易懂。哈佛出品,值得阅读。Transformer最基本的结构,也是BERT的基本结构,NLP和推荐都需要用到。

2022-12-06

gcn/gat模型中预处理数据用的脚本 如何把数据整成gcn/gat模型需要的数据格式 process

图模型中数据预处理所用的脚本, 包括dgl,gcn,gat都是用的这个预处理过程。

2022-12-06

sample_movielens_ratings.txt

采样的movielens数据集,一般用来推荐模型中的测试。标椎格式txt可以尝试下自己的新模型,这种数据一般用于有评分数据的模型,用于矩阵分解之类的模型。如果是点击与否的模型则不适用。推荐算法模型可以查看我的相关博文,关注即可。多谢点赞。也可以加群获取更多资讯。群里有各种大佬,都是算法专家。

2022-09-17

视频中的音频提取test.mp3

视频中音频提取技术,ffmpeg是底层实现工具,这是最基本的,采用py处理得到,简单方便,但实时性有点差,取决于个人所用工具。

2019-11-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除