自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【无标题】

【代码】【无标题】

2024-07-15 14:38:27 57

原创 SBERT模型——在为适配数据而苦苦寻找到的相关度模型

加载预训练的SBERT模型# 产品描述# 加载Excel文件file_path = '/content/test_final.csv' # 修改为您的文件路径# 清除“月xxx量”和“xxx份额”中为空值的行df.dropna(subset=['月xxx量', 'xxx份额'], inplace=True)# 数据清洗:去除重复的关键词,转换为小写df['关键词'] = df['关键词'].str.lower().drop_duplicates()# 生成产品描述的嵌入。

2023-12-12 12:15:33 467

原创 XGBoost模型训练和优化实践

定义参数网格# 创建 XGBoost 回归模型# 创建网格搜索对象# 执行网格搜索# 打印最佳参数# 使用最佳参数在测试集上进行预测# 计算优化后的 MSE 和 R²。

2023-12-06 10:49:12 552

原创 在使用皮尔逊相关系数查找变量指标重要性时遇到的问题

具体数值是:然后研究后结论是:根据我的输出结果,每个特征与“相关性判断”目标变量之间的皮尔逊相关系数都相对较低。这表明这些特征与目标变量之间没有强烈的线性关系。这种情况在实际数据分析中是可能发生的,尤其是在复杂或非线性关系占主导的情况下。以下是我可以考虑的一些步骤:考虑可能存在的非线性关系。皮尔逊相关系数只能衡量线性关系的强度。您可以探索其他方法(如决策树、随机森林或其他机器学习模型),这些方法能够捕捉非线性关系。尝试进行更复杂的特征工程。有时,原始特征可能需要一些转换(如对数转换、多项式特征等)才能显

2023-12-05 19:07:03 835

原创 在处理亚马逊关键词筛选过程中关于多模型堆叠的一点思考

元模型的任务是综合这些元特征来生成一个最终的关键词评分。使用两个基础模型的输出作为新的特征集。例如,您可以将关键词相关性模型的输出和关键词流量模型的输出作为两个特征。这可以是您原始数据集的一部分,但不应该用于基础模型的训练。这些特征称为“元特征”(meta-features),因为它们是从其他模型的输出中派生出来的。首先,分别训练两个基础模型:一个用于评估关键词相关性,另一个用于预测关键词流量。重要的是要避免信息泄露,确保元模型的训练和验证是公平和独立的。使用您留出的验证集来评估元模型的性能。

2023-12-05 15:25:42 400

原创 归一化问题中多次 fit_transform跑出来结果一样?

在你的代码中,使用 fit_transform 方法对两个不同的数组进行归一化时,问题出在了 fit_transform 方法上。这个方法会计算并使用每个数组的归一化参数,然后对数据进行归一化。由于你在两个不同的 fit_transform 调用中使用了不同的数据,导致了归一化时使用了不同的参数,结果是不准确的。解决这个问题的方法是在对第二个数组进行归一化时,使用已经计算过的归一化参数。你可以使用 fit 方法对数据进行计算参数,然后使用 transform 方法应用这些参数进行归一化。

2023-12-04 19:53:34 363

原创 【解决办法】UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb9 in position 0: invalid start byte

请注意,在处理字符编码问题时,确保选择的编码方式与数据文件实际使用的编码方式匹配。如果文件的编码方式未知,可以尝试多次使用不同的编码方式,看哪一种方式能够成功读取数据而不引发错误。指定正确的编码: 尝试使用不同的编码方式打开文件,例如 GB2312、GBK、ISO-8859-1 等。这个错误表明在尝试使用 UTF-8 编码解码字节时出现问题,因为字节序列包含无效的起始字节。忽略错误的字符: 你可以尝试在打开文件时使用 errors=‘ignore’ 参数,以忽略包含无效编码的字符。

2023-12-04 19:50:15 5357

原创 常见的归一化算法——它们的原理和适用场景

Min-Max 归一化是最简单和最常见的一种归一化方法。它通过线性缩放将数据映射到指定的范围,通常是 [0, 1]。这种归一化方法适用于大多数机器学习模型,尤其是对于那些对输入特征的数值范围敏感的模型。

2023-12-04 19:46:30 610

原创 重学java笔记

目录equals与==的区别equals与==的区别基本数据类型,也称原始数据类型。 byte,short,char,int,long,float,double,boolean 他们之间的比较,应用双等号(==),比较的是他们的值。复合数据类型(类) 当他们用(== )进行比较的时候,比较的是他们在内存中的存放地址,所以,除非是同一个new出来的对象,他们的比较后的结果为tr...

2020-04-03 12:31:00 72

原创 模式识别学习笔记(一)--聚类分析

- 相似性测度欧式距离:一般我们所用的所有距离都是欧氏距离马氏距离:明氏距离m=2时,是欧氏距离m=1时,是街坊距离(相当于两点之间的横纵路径)汉明距离:主要是二值向量之间的(二值向量即向量组成皆为1或-1)同值分量数与不同值分量数之差。差值越大,两向量越不相似角度相似函数:就是两个模式向量的夹角的余弦Yanimoto测度:也是用于0-1二值特征- 聚类准则1.阈...

2019-11-29 15:14:04 859

原创 《数字图像处理》绿书部分知识点2.5

像素间的一些基本关系相邻像素 :通俗来说就是某像素点周围的像素点的集合。 4邻域就是上下左右四个相邻像素,8邻域是4邻域像素+4对角像素三种邻接:4邻接,8邻接,m邻接三种邻接只存在二值图像中像素值在V中的像素点之间讲讲m邻接:注意“那个交集里没有来自V中数值的像素”从坐标(x,y)到(s,t)的 邻接像素组成的通路(8通路,4通路,m通路)度量距离:欧氏...

2019-11-24 21:46:55 217

原创 初次接触,对论文Deep Convolutional Network Cascade for Facial Point的几点想法(更新)

老师提出的问题:问题一:Table2是什么意思?回答:首先L1,L2,L3代表三层网络,其中L1层包括了F1、EN1、NM1三个网络绿框代表人脸检测框,黄色实心块代表实际所取的图片(来输入到网络中),蓝点代表大致前期特征点的结果,红点代表最终检测到的特征点然后以第二排数据为例,方向: (左, 右, 上, 下)基准点(绿框):(...

2019-11-21 01:27:44 132

原创 关于python 导入cv2.cv时出错

今天在做图像处理时用到了opencv看到一些博主给出了import cv2.cv的说法一直行不通,显示不存在cv2.cv模块索性直接用cv2,结果又报错cv2没有CreateImage这些函数最后查到是,新opencv好像没有cv这个模块,应该直接用cv2,但cv2没有那些创建图片的函数只有一些新函数可以替代:img = cv2.imread(“D:\cat.jpg”) #读...

2019-07-06 10:10:45 4524

随手帮朋友分析的Amazon关键词(无聊版)+为了怕自己忘了所以就加上了XGBoost皮尔逊和随机森林

随手帮朋友分析的Amazon关键词(无聊版)+为了怕自己忘了所以就加上了XGBoost皮尔逊和随机森林,没啥技术含量,说实话也没成功预测出来这个什么亚马逊的关键词,维度太多了Curse of Dimensionality!让我自己去降维,让我使用主成分分析(PCA)或 t-分布邻域嵌入(t-SNE),到最后摸出来的结果也不一定符合业务环境。而且第三方出来的报告都不是原始数据,分析起来没意义。随便看看吧

2023-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除