- 博客(5)
- 收藏
- 关注
原创 正则化- logistics回归
正则化是一种常见的机器学习技术,它是在模型训练过程中为了防止过拟合而引入的一种约束方法,它通过在模型的损失函数中增加正则项来实现。正则项通常是模型参数的范数(L1 或 L2 范数),通过限制参数的大小来使得模型更加简单,从而减少过拟合的风险。注:**鲁棒性(robustness)**指的是模型对于异常值和噪声的健壮性,即在数据中存在噪声或异常值的情况下,模型能够仍然保持较好的性能,不容易被这些噪声或异常值所影响。L1 正则化和 L2 正则化都是常用的正则化方法,它们的主要区别在于正则化项的形式不同。
2023-04-19 19:11:39 604 1
原创 python Statsmodel 回归模型笔记
例如,可以使用多元线性回归模型分析某个人的收入和年龄、教育水平、工作经验等多个因素之间的关系。因此,如果您的因变量是连续变量,且误差项的独立性和同方差性得到满足,您可以使用线性回归模型;如果您的因变量类型比较复杂,或者您不能满足误差项的独立性和同方差性假设,您可以使用广义线性模型。Breusch-Pagan检验的原假设为误差项方差不随自变量的变化而变化,备择假设为误差项方差随自变量的变化而变化。在实际应用中,可以使用交叉验证等方法来评估模型的性能,并选择最佳的模型。
2023-04-19 18:20:11 1489
原创 数据分析使用工具时候遇到的坑,持续更新(hive pyspark pandas)
1.pyspark生成parquet注意!!如果你的几个需求之间,生成表的schema不一致,不要用同一个名称生成parquet,会导致失败,并且没有报错信息即是:parquet不要重名!除非schema一致!2.使用pandas生成csv数据量较大的时候,比较长的字符串(内容是数字)就会变成科学计数法解决方法:1做一个后缀加“”字符再生成csv2不用pandas,直接使用pyspark的dataframe.write.csv(xxx.csv,header=True)...
2021-07-06 12:27:33 225
原创 Numpy的array与list的复制
复习中记错了array的复制,以为也同list一样是用切片……list的复制方法如下:a=[1,2,3]b=a[:]而array的话,切片和赋值均指向自身:a=b[:]a=b #均指b要使用的复制方法如下:array2=array1.copy() #对原始的array1的复制 array3=array1[1:3].copy() #对切片array1[1:3]的复制...
2020-04-06 17:58:31 271
原创 oracle删除同义词
之前做存储过程的时候,加了全局同义词,发版本的时候删除失败,痛不欲生我的存储过程create or replace abcis beginend;/create or replace public synonym abc for root.abcgrant execute on abc to abcuser﹉﹉﹉注意加上publicdrop procedure abcd...
2020-03-26 20:34:02 5391
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人