自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 正则化- logistics回归

正则化是一种常见的机器学习技术,它是在模型训练过程中为了防止过拟合而引入的一种约束方法,它通过在模型的损失函数中增加正则项来实现。正则项通常是模型参数的范数(L1 或 L2 范数),通过限制参数的大小来使得模型更加简单,从而减少过拟合的风险。注:**鲁棒性(robustness)**指的是模型对于异常值和噪声的健壮性,即在数据中存在噪声或异常值的情况下,模型能够仍然保持较好的性能,不容易被这些噪声或异常值所影响。L1 正则化和 L2 正则化都是常用的正则化方法,它们的主要区别在于正则化项的形式不同。

2023-04-19 19:11:39 431 1

原创 python Statsmodel 回归模型笔记

例如,可以使用多元线性回归模型分析某个人的收入和年龄、教育水平、工作经验等多个因素之间的关系。因此,如果您的因变量是连续变量,且误差项的独立性和同方差性得到满足,您可以使用线性回归模型;如果您的因变量类型比较复杂,或者您不能满足误差项的独立性和同方差性假设,您可以使用广义线性模型。Breusch-Pagan检验的原假设为误差项方差不随自变量的变化而变化,备择假设为误差项方差随自变量的变化而变化。在实际应用中,可以使用交叉验证等方法来评估模型的性能,并选择最佳的模型。

2023-04-19 18:20:11 1368

原创 数据分析使用工具时候遇到的坑,持续更新(hive pyspark pandas)

1.pyspark生成parquet注意!!如果你的几个需求之间,生成表的schema不一致,不要用同一个名称生成parquet,会导致失败,并且没有报错信息即是:parquet不要重名!除非schema一致!2.使用pandas生成csv数据量较大的时候,比较长的字符串(内容是数字)就会变成科学计数法解决方法:1做一个后缀加“”字符再生成csv2不用pandas,直接使用pyspark的dataframe.write.csv(xxx.csv,header=True)...

2021-07-06 12:27:33 184

原创 Numpy的array与list的复制

复习中记错了array的复制,以为也同list一样是用切片……list的复制方法如下:a=[1,2,3]b=a[:]而array的话,切片和赋值均指向自身:a=b[:]a=b #均指b要使用的复制方法如下:array2=array1.copy() #对原始的array1的复制 array3=array1[1:3].copy() #对切片array1[1:3]的复制...

2020-04-06 17:58:31 230

原创 oracle删除同义词

之前做存储过程的时候,加了全局同义词,发版本的时候删除失败,痛不欲生我的存储过程create or replace abcis beginend;/create or replace public synonym abc for root.abcgrant execute on abc to abcuser﹉﹉﹉注意加上publicdrop procedure abcd...

2020-03-26 20:34:02 5282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除