用Sklearn和Statsmodels来做linear_regression和Logistic_regression注意事项 默认情况下,LogisticRegression 的 penalty 参数设置为 ‘l2’,同时 solver 参数默认为 ‘lbfgs’,它是一种优化算法,用于找到损失函数的最小值。C 参数控制正则化的强度,其默认值是 1.0,较小的 C 值意味着更强的正则化(即更平滑的模型),而较大的 C 值则意味着更弱的正则化(允许模型更复杂)。而在 scikit-learn 中,当你使用 LinearRegression 类时,是否添加常数项(截距)是由类初始化时的 fit_intercept 参数决定的。
Sensitivity, specificity, positive prediction rate,negative prediction rate, misclassification error 在统计学和机器学习中,敏感性(Sensitivity)、特异性(Specificity)、阳性预测值(Positive Prediction Rate, PPV)、阴性预测值(Negative Prediction Rate, NPV)和误分类错误(Misclassification Error)是评估分类模型性能的常用指标。这些指标在不同的应用场景中可能会有不同的重要性。例如,在医疗诊断中,可能会更关注敏感性 sensitivity (recall),以确保尽可能多的实际病例被检测出来;
Pandas和SQL行转列,pivot_sum(case…) 在Pandas中,可以使用pivot方法将行转换为列,这通常被称为“透视”操作。以下是一个简单的例子来说明如何进行行转列:输出:输出:Category在这个例子中,index参数指定了哪一列作为新DataFrame的行索引,columns参数指定了哪一列的值将作为新DataFrame的列名,而values参数指定了哪一列的值将填充到新DataFrame中。请注意,pivot方法要求索引/列名组合必须是唯一的,也就是说,每个Category和Year的组合必须是唯一的。
Leecode SQL 197. Rising Temperature 日期差用 DATEDIFF() 不可以写 w.recordDate = y.recordDate+ 1 因为是日期,跨月份会找不出来!
SQL_WHERE子句里不能出现COUNT() 但是,如果你想基于某个计数来过滤记录,你可以使用 HAVING 子句,而不是 WHERE 子句。HAVING 子句在功能上与 WHERE 子句相似,但它是针对分组后的数据进行过滤的。这个查询会返回 column1 的值和每组的记录数,但只有当 column1 相同的记录数大于 1 时才会被包括在结果中。如果你确实想在 WHERE 子句中使用类似 COUNT() 的逻辑,你可能需要使用子查询或者 JOIN 操作来实现。请注意,过度使用子查询可能会导致性能问题,特别是在处理大量数据时。
Leecode pandas groupby keep cols 1070. Product Sales Analysis III 【代码】Leecode pandas groupby keep cols 1070. Product Sales Analysis III。
如何在 Pandas 中对 dataframe 进行 groupby 并保留列? 在此示例中,sales_data.groupby(‘product’) 按 ‘product’ 列对销售数据进行分组,而 agg({‘quantity_sold’: [‘sum’, ‘mean’]}) 将 sum 和 mean 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含所有原始列的新 DataFrame 和一个新列 ‘quantity_sold_sum’,其中包含每个组的 ‘quantity_sold’ 列的总和。如果要将所有原始列保留在分组的 DataFrame 中,
Maximum_Likelihood *应用到科学方法论,We can measure the distance of a theory to the real world data, ie, to examine a theory is good or bad, using likelihood. **例:两个盒子,一个有5个黑球5个白球,另一个有9个黑球1个白球。现抽4次,每次放回地抽1个球。问最可能从哪个盒子抽的。例,无穷多个盒子,它们有黑球的比例是从0到1不等。抽4次,4个都是黑球。
Correlated_Covariance_Independence 这就是为什么 uncorrelated 不意味着 independence.也即,dependent variables 不一定 correlated.但是所有的 independent variables 都一定是 uncorrelated.我们学Correlated 是指相关性,相关性是指线性相关性就是两个变量有没有线性关系。你的其他的关系,他是他是不管的。
Total_Expectation_Conditional_Bias_Variance_Tradeoff 我们碰到的绝大多数都是 conditional 的probability。比如,given miu, sigma square, 才能讨论一个正态分布。
Python_partial函数和map同时用 然后,我们使用 partial 来创建一个新的函数 multiply_by_three,它固定了 multiply 函数的第一个参数为3。在这个例子中,我们创建了一个 my_function 的部分函数 my_partial_function,它已经固定了参数 a=1 和 b=2。我们使用 partial 来创建一个新的函数 print_person_age,它固定了 print_age 函数的 fmt 参数。假设我们有一个列表的字典,我们想要提取每个字典中的特定key的值,并且对这个值应用一个函数。
为什么用参数模型解决维度灾难 模型结构:深度学习中的参数化模型,如深度神经网络(DNNs),通过其深层结构能够学习数据的非线性表示,这使得它们能够在高维空间中有效地捕捉复杂的模式。例如,主成分分析(PCA)就是一种常用的降维技术,它可以找到数据的主要变化方向,并将数据投影到这些方向上,从而降低维度。通过限制模型参数的复杂度,正则化帮助模型专注于最重要的特征,从而提高模型的泛化能力。总的来说,参数化模型通过假设数据的结构、利用降维技术、正则化、深层结构和计算优化等方法,能够在高维空间中有效地进行学习和预测,从而克服维度灾难。
Amazon EC2, S3 Bucket, Yaml file, Stack 例如,在AWS OpsWorks中,stack是指一组AWS资源,如EC2实例和RDS数据库,它们一起用于托管和管理应用程序的不同层。在AWS中,"stack"通常指的是AWS CloudFormation中的一个概念,它表示一组可以作为单个单元进行管理的AWS资源。总的来说,Amazon EC2提供了计算能力,Amazon S3提供了存储能力,YAML文件用于编写配置,而AWS CloudFormation 则用于自动化资源的部署和管理。通过CloudFormation,可以自动化资源的部署和管理过程。
PySpark把一列数据上下移动,时序数据 在 PySpark 中,确实存在一个类似于 Pandas 中 shift 函数的功能,它被称为 shiftleft 函数。不过,这与 Pandas 中的 shift 函数有所不同,后者用于将数据在时间序列中上下移动。如果想在 PySpark 中实现类似于 Pandas shift 的功能,即将 DataFrame 中的行或列向上或向下移动,你可以使用 lag 或 lead 函数。例如,如果你有一个整数列,并且你想要将每个值的二进制表示向左移动一位,你可以使用 shiftleft 函数。
各种环境,转换字符串为日期时间datetime 在SQL Server中,CONVERT()函数可以用于多种数据类型之间的转换,包括字符串到日期。当转换日期时,通常可以省略格式说明,只要字符串的格式是SQL Server能识别的。在 PySpark 的 SQL 模块中,to_date 是一个用于将字符串或数值类型转换为日期类型的函数。在MySQL中,你可以利用STR_TO_DATE()函数,这个函数需要两个参数:待转换的字符串和该字符串对应的日期格式。Oracle数据库使用TO_DATE()函数来转换字符串为日期,并且也需要你指定字符串的格式。
Pandas_构建dataframe的多种方法 使用pd.concat或pd.merge合并多个DataFrame。使用pd.DataFrame.from_records。使用pd.DataFrame.from_dict构建。使用pd.DataFrame.from_items。使用pd.DataFrame的构造函数。• 从Excel文件读取。使用Series对象构建。• 从SQL数据库读取。使用NumPy数组构建。• 从CSV文件读取。• 将字典的值作为列。• 将字典的键作为列。