马行处-CSDN博客

原创微调模型VS显存

SFT：全参数微调包含梯度、优化器激活 1B精度-fp32-模型大约需要4GB梯度显存（每个参数都需要有一个梯度）： 4GB优化器显存：以adamw优化器为例，他需要自身参数+参数动量+参数方差=4GB+4GB+4GB=12GB； PEFT：需要的显存与模型没有大的区别，主要看PEFT部分，大概是几M到几GB。

2024-09-03 17:17:21 751 2

沿着Latex标题、标题、枚举等分割文本，如下面的分割符涉及的多个符号，如chapter，section，subsection等。按字符串分割文本，递归地尝试按不同的分隔符进行分割文本。沿着Markdown的标题、代码块或水平规则来分割文本。使用 NLTK（自然语言工具包）按句子分割文本。基于指定的标题来分割markdown 文件。沿着python类和方法的定义分割文本。使用 Spacy按句子的切割文本。按token来分割文本。按token来分割文本。

2024-08-16 18:01:33 1021

原创 Linux查看GPU信息和使用情况

Fan：显示风扇转速，数值在0到100%之间，是计算机的期望转速，如果计算机不是通过风扇冷却或者风扇坏了，显示出来就是N/A；Perf：表征性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能；Disp.A：是Display Active的意思，表示GPU的显示是否初始化；Volatile GPU-Util：浮动的GPU利用率；命令行参数-n后边跟的是执行命令的周期，以s为单位。Temp：显卡内部的温度，单位是摄氏度；Bus-Id：涉及GPU总线的相关信息；Compute M：计算模式；

2024-08-09 16:56:09 933

原创 ubuntu大模型GPU版本安装及部署

nvcc -V 查看系统安装的cuda驱动（注意这是系统当前使用的cuda驱动，也可以同时存在多个cuda，使用conda+pytorch可以在多个虚拟环境中管理不同的cuda版本）sudo gedit /etc/modprobe.d/blacklist.conf 或者(blacklist-nouveau.conf) 如果找不到就用vim 进行编译。sudo apt install nvidia-utils-535 (nvidia-smi在线安装)

2024-08-09 16:55:06 1263

原创禁用ssh 22端口

2. 打开SSH配置文件，可以使用任何文本编辑器，如vi或nano。在大多数Linux发行版上，SSH配置文件位于/etc/ssh/sshd_config。3. 确定正在使用的防火墙规则后，关闭SSH端口。在Linux系统中，要关闭SSH端口，可以通过修改SSH配置文件或防火墙规则来实现。2. 检查系统上正在运行的防火墙，可以使用iptables或firewalld。可以尝试通过SSH连接到关闭的端口来进行验证。– 如果使用iptables，执行命令：sudo iptables -L。

2024-08-09 16:51:56 3590

原创学习率了解一

微调预训练模型：当使用已经预训练好的模型（如在特定任务上微调BERT）时，通常使用非常小的学习率（例如5e-5或更小），这是因为预训练模型已经非常接近优化目标，我们只需要做一些轻微的调整。细致调整：当你发现模型的性能开始稳定，但还需要进一步优化时，可以减小学习率（例如0.001或0.0001），帮助模型更精确地找到最优解。5e-5（0.00005）：非常小的学习率，常见于预训练模型的微调阶段，例如在自然语言处理中微调BERT模型。1e-2（0.01）：中等大小的学习率，常用于许多标准模型的初始学习率。

2024-08-09 16:50:54 4502

原创精度了解一

BF16也是16位的，但它在表示数的方式上和FP16不同，特别是它用更多的位来表示数的大小（指数部分），这让它在处理大范围数值时更加稳定。在表示数的方式上和FP16不同，特别是它用更多的位来表示数的大小（指数部分），这让它在处理大范围数值时更加稳定。想象一下，如果你有一个非常精细的秤，但现在只用这个秤的一半精度来称重，这就是FP16。这是使用32位浮点数进行计算的方式，可以想象为一个标准的、全功能的精细秤。这是使用32位浮点数进行计算的方式，可以想象为一个标准的、全功能的精细秤。

2024-08-09 16:50:07 744

原创模型评估一

模型表现效果：过拟合（所建的机器学习模型在训练样本中表现得过于优越，导致在测试数据集中表现不佳）、欠拟合（模型学习太粗糙，连训练集中样本数据的特征关系都没有学出来）回归模型评估：均方根误差RMSE（p_i为预测值，a_i为实际值）、相对平方误差RSE、平均绝对误差MAE、相对绝对误差RAE。分类模型评估：准确率（预测正确的数占样本总数的比例）、精确率、召回率、F1-score、AUC指标。

2024-08-09 16:48:56 230

原创 AttributeError: module ‘google._upb._message‘ has no attribute ‘Message‘

【代码】AttributeError: module ‘google._upb._message‘ has no attribute ‘Message‘

2024-05-27 17:04:18 1029

原创 conda config --set report_errors false

换回默认镜像conda config --remove-key channels。

2024-03-18 14:51:52 576 1

原创聚类算法概念复习

聚类算法基本概念复习

2022-10-28 09:38:25 797

原创机器学习概念复习版

机器学习概念复习及面试

2022-10-24 14:24:58 1186

原创遗传算法理解

最近有个项目，需要做启发式算法的最优解，所以想用遗传算法解决。遗传算法，遗传就是生物学里的继承关系。从父辈，祖辈不断的继承和变异基因，从石器时代的石头变成现在的便携式电脑，从大哥大到苹果13promax。从60hz 到120hz。代表了每个时代的适应性和变革性。如图一遗传算法流程图图一第一步 Initialization初始化解释：随机产生多个物种，万物混沌，有恐龙有天上飞的，地下跑的，生物多样性达到了巅峰第二步Fitness适合度解释：由于环境要求及变化，万

2022-02-24 11:04:45 434

原创 TF-IDF 通俗解释

特征提取名词解释1.特征提取对应着特征项的选择和特征权重的计算。2.特征项的选择就是指根据某个评价指标独立的对原始特征项(词语)进行评分排序，从中选取得分最高的一些特征项，过滤掉其余的特征项。3.特征权重的计算：主要思路是依据一个词的重要程度与类别内的词频成正比(代表性)，与所有类别中出现的次数成反比(区分度)。基于统计的特征提取方法（构造评估函数）TF-IDF词频（TF）公式= 某个词在文章中的出现次数 / 文章的总词数逆文档频率（IDF）公式 = log(语料库的文档总数

2021-11-15 15:33:29 1394

原创解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.问题

import osos.environ["CUDA_VISIBLE_DEVICES"] = "True"os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'可以翻译这句话：CUDA not available - defaulting to CPU. Note: This module is much faster with a GPU.出现的是GPU版本和pytorch适用的问题。已经解决了...

2021-07-19 09:54:15 1769 1

原创 pandas处理数据多方式（2）

删除某列指定值所在的行 count 为列名，【1】代表数值e_s = e_s[~e_s['count'].isin([1])]

2021-04-09 13:37:54 186

原创 pandas 处理数据的多方式（1）

持续更新中

2021-03-31 14:45:15 273

原创正负样本

机器学习：二分类问题：laber :0 负样本laber:1 正样本深度学习：目标检测负样本：与识别目标相反的数据，样本正样本：需要识别的主体目标样本困难样本：预测时与真值标签误差较大的样本简单样本：预测时与真值标签误差较小的样本...

2020-12-10 11:17:42 885

原创 windows10 sqlserver导入sql脚本文件

数据库名称和脚本内的use[数据库一致]sqlcmd -S localhost -U sa -P 自己密码 -d 自己数据库 -i D:\script.sqlGO

2020-12-04 16:13:06 805

原创 EXCEL打开utf-8存储方式的文件会出现乱码

原因：因为EXCEL 2个字节储存。utf-8 1个字节的存储方式，所以EXCEL直接打开时会出现乱码。小文件可以加BOM解释：BOM 是 Byte Order Mark 的缩写，EXCEL自动直接识别出编码。

2020-12-03 14:37:08 2234

原创用余弦算法做相似度匹配

前面写了一个用simhash 做算法相似度匹配。我觉得俩个算法都可以，但是一定要实践证明算法的稳定性，和模型的准确度。因为开发比较急，所以没有去验证关键词加simhash 的具体准确情况，但是依据我来看会很不错。后期我们上线的是余弦算法的相似度匹配。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。参考网上demo:def similarity(s1, s2): try:

2020-05-09 18:24:24 1638 4

原创用simhash 去做相似度匹配

前期项目需求需要做一个千万级的文章，新闻类的匹配，周期近20天左右，前半月用simhash 做的算法，从网上和一些博客看到一些资料，经过自己的整理和规划，准备自己出一半simhash 的算法项目服务器：就这个！cat /proc/cpuinfoprocessor : 0vendor_id : GenuineIntelcpu family : 6model : 63model name : Intel(R) Xeon(R...

2020-05-09 18:12:22 1796 4

原创 python 字符串转json 中将单引号设置成双引号。细节

str_UID = str_UID.replace("'", '"' ) 完美替换。。。。。。。

2020-04-28 18:40:02 7408 3

原创 python dataframe转为dict 并自定义索引

原始格式：dataframe转换自定义索引可以把user_id作为索引设置自己的格式：代码片段：data_obj = pd.read_sql(sql_obj, conn)data_obj = data_obj.set_index('user_id')print(data_obj)dict_obj = data_obj.T.to_dict()print(dict_o...

2020-04-26 15:39:26 2619

原创 linux python 3.7 安装psycopg2

(base) [root similair]# pip install psycopg2-binaryLooking in indexes: http://mirrors.aliyun.com/pypi/simple/Collecting psycopg2-binary Downloading http://mirrors.aliyun.com/pypi/packa3f464485d957...

2020-04-22 20:11:55 3997

原创文章推荐系统（1）

用ItemCF和userCF用户行为数据简介积极行为：用户明确表示对物品喜好的行为。评分、喜欢、不喜欢。包括：collect、share、like、attention（关注）隐形行为：不能明确反应用户喜好的行为。比如页面浏览。view、buy、post(f发布)最后会有思维导图来决定业务流程。欢迎关注。...

2020-04-22 14:34:44 463

原创召回率，精确率和F平均值，浅谈

精确率：700 / (700 + 200 + 100) = 70%公式：召回率 = 700 / 1400 = 50%公式：F值 = 70% * 100% * 2 / (70% + 100%) = 82.35% 备注：F 值即为正确率和召回率的调和平均值。...

2020-04-21 19:50:56 1181 2

原创 mysql 没有主键id,删除重复数据

=删除重复数据，先追加自增 idALTER TABLE `simi_lar` ADD `id` INT ( 1 ) NOT NULL AUTO_INCREMENT,ADD INDEX `id` ( `id` );=删除重复数据DELETEFROM `simi_lar` USING `simi_lar`, ( SELECT DISTINCT...

2020-04-20 09:39:23 2522 1

原创 hanlp 安装（python3.7版本）

pip install pyhanlp# -*- coding:utf-8 -*-from pyhanlp import *text = "中文分词只是第一步；HanLP从中文分词开始，覆盖词性标注、" \ "命名实体识别、句法分析、文本分类等常用任务，提供了丰富的API。" \ "不同于一些简陋的分词类库，HanLP精心优化了内部数据结构和IO接口，...

2020-04-07 16:25:00 3152

原创 403 POST /api/contents (::1): Permission denied: Untitled.ipynb

上传文件jupyter notebook 显示权限不够的问题403 POST /api/contents (::1): Permission denied: Untitled.ipynb可以用命令到windows cmd 下：jupyter notebook --allow-root --generate-config得知你的jupyter_notebook_conf...

2020-03-30 10:21:38 2680 2

原创 cv2.error: OpenCV(3.4.7) D:\Build\OpenCV\opencv-3.4.7\modules\highgui\src\window.cpp:366: error: (-2

Traceback (most recent call last): File "C:/project/ztplan/renlian/test1.py", line 4, in <module> cv2.imshow('image',img)cv2.error: OpenCV(3.4.7) D:\Build\OpenCV\opencv-3.4.7\modules\high...

2019-09-24 16:00:52 4459 1

原创 tensorflow 解决 ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we

解决：ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.安装pip instal...

2019-09-24 13:58:43 9566 5

原创 Could not install packages due to an EnvironmentError

ERROR: Could not install packages due to an EnvironmentError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Max retries exceeded with url: /packages/57/22/3a709462eb02412bd1145f6e53604...

2019-09-02 09:47:21 944

转载 git回滚到之前提交的某个版本

先显示提交的记录：git logcommit e499aac9257354c54ac2e1ff6a393ac7c8d2f342Author: xx <xxx@xx.com>...... 1 2 3 4回到指定版本：git reset --hard e499aac9257354c54ac2e1ff6a393ac7c8d2f3421强制提交：g...

2019-08-30 17:05:15 2291

原创对数据整体清洗完整版

数据形式：需要计算同一国家下的数据量，合并所有国家为一列，并计算一个内购买量。三个数据集都是以下的形式：步骤：1：合并多列为一列，create_time 不变2：三个文件合并为一个文件按时间，国家分组，合并重复项。3：看似简单，其实三个csv除了国家之外，其他的都不一致。三个统计的维度也不是一样的附代码：def all_any(): # cnews...

2019-08-21 09:21:49 584

转载 Python Pandas 做数据分析之玩转 Excel 报表分析

各位朋友大家好，非常荣幸和大家聊一聊用 Python Pandas 处理 Excel 数据的话题。因为工作中一直在用 Pandas，所以积累了一些小技巧，在此借 GitChat 平台和大家分享一下心得。在开始之前我推荐大家下载使用 Anaconda，里面包含了 Spyder 和 Jupyter Notebook 等集成工具。到百度搜索一下就可以找到官方下载链接，下载个人版就可以（本文使用的 P...

2019-08-16 15:53:02 12256 3

转载会用这36个函数，小白也能入门数据分析

会用这36个函数，小白也能入门数据分析Python之禅今天作者 | 蓝鲸网站分析博客来源|http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-excel-3.html常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的，一类是平常用Excel做分析但不太会用Python分析的。如果和你...

2019-07-25 11:02:43 370

转载 SQL中GROUP BY用法示例

概述GROUP BY我们可以先从字面上来理解，GROUP表示分组，BY后面写字段名，就表示根据哪个字段进行分组，如果有用Excel比较多的话，GROUP BY比较类似Excel里面的透视表。GROUP BY必须得配合聚合函数来用，分组之后你可以计数（COUNT），求和（SUM），求平均数（AVG）等。常用聚合函数count() 计数 sum() 求和 avg() 平均数 max...

2019-07-19 13:30:12 460

转载 Python绘图之matplotlib基本语法

　　博客地址：http://www.cnblogs.com/yudanqu/　　Matplotlib 是一个 Python的 2D绘图库，通过 Matplotlib，开发者可以仅需要几行代码，便可以生成绘图，直方图，功率谱，条形图，错误图，散点图等。当然他也是可以画出3D图形的，这时就需要安装更多的扩展。相比MATLAB来说，python不需要那么大的安装包，而且最重要的是开源的，在这...

2019-07-19 09:31:46 7459

NLP算法相关各行业中文词库.zip

NLP分析必备词库之一，可以看看，各种行业的词库都有

2020-12-15

WordCloud 下载

windows 64位系统下载 python3以上版本。。

2018-07-23

中文情感词典.rar

中文情感词典，有正负情感的关键词等信息，可以供大家识别模型中词性

2020-12-15

ntp centos7 rpm

ntp rpm包，用于节点的时间同步，可以避免安装失败。

2019-02-27

linux介绍.xmind

清晰介绍linux思维导图各模块，可以快速定位自己不同的地方，和整体架构。

2021-06-07

vim安装步骤

vim yum安装步骤

2017-06-11

县级以上行政数据包含经纬度.zip

县级以上经纬度数据，仅供参考，仅运用个人使用。mysql数据库使用。

2021-01-12

疝气病数据集逻辑回归

机器学习实战数据集def loadDataSet(): 3 dataMat = [] ; labelMat = [] 4 fr = open('testSet.txt') 5 for line in fr.readlines(): # 对文件的数据进行按行遍历 6 lineArr = line.strip().split() 7 dataMat.append([1.0, float(lineArr [0]), float(lineArr[1])]) 8 labelMat.append(int(lineArr[2])) # 数据的类别号列表丰富

2018-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

NLP算法相关各行业中文词库.zip

WordCloud 下载

中文情感词典.rar

ntp centos7 rpm

linux介绍.xmind

vim安装步骤

县级以上行政数据包含经纬度.zip

疝气病数据集逻辑回归

Postgresql 配置文件1（connpsy-inl）

mysql优化.xmind

吴恩达机器学习和深度学习笔记

china_stop

PMP（PMBOK第六版）

mysql-connector-java

空空如也