![](https://img-blog.csdnimg.cn/20210424131734923.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析
现阶段致力于数据分析求职
懿朔
这个作者很懒,什么都没留下…
展开
-
特征工程 / 数据预处理
特征工程部分内容对于原始数据:首先明确有多少特征,哪些是连续的,哪些是类别的检查特征是否有确实,对缺失的特征选择适当的方法进行填充对连续性特征进行标准化, 对类别特征进行one-hot编码将需转换成类别型数据的连续型数据二值化为防止过拟合,选择是否要将数据进行正则化若对数据初探之后效果不佳可以尝试使用多项式方法寻找非线性关系根据实际问题分析是否需要对特征进行相应的函数转换缺失值处理df_train['Age'].fillna(value=df_train['Age'].mea原创 2021-07-24 19:55:00 · 179 阅读 · 0 评论 -
EXCEL知识积累
EXCEL知识积累left(text,n) 返回字符串text的前n个字符left(“BR03”,2) #res:BRif不能判断大小写,如需判断大小写需使用exact(text1,text2) 判断text1 text2是否完全相同if(left(“BR03”,2)=“BR”,“T”,“F”) #res:Tif(left(“br03”,2)=“BR”,“T”,“F”) #res:Tif(exact(left(“br03”,2),“BR”),“T”,“F”)原创 2021-07-21 19:12:54 · 170 阅读 · 0 评论 -
#数据分析 SQL的书写顺序 和 执行顺序
书写顺序:SELECT 查询列表.FROM 表 1 【连接类型】 JOIN 表2 ON 连接条件WHERE 筛选条件GROUP BY 分组列表HAVING 分组后的筛选条件ORDER BY 排序的字段LIMIT 起始的条目索引,条目数;执行顺序:SELECT 查询列表 ⑦FROM 表 1 ①【连接类型】 JOIN 表 2 ③ON 连接条件 ②WHERE 筛选条件转载 2021-06-13 16:06:44 · 86 阅读 · 0 评论 -
#数据分析 大数定律& 中心极限定理
大数定律 相同条件下大量重复进行一种随机实验,一件事情发生的次数与实验次数的比值,即该事件发生的频率值会趋近于某一数值,样本数量越大,近似效果越好。(样本的均值收敛到总体均值【期望】)中心极限定理 给定一个任意分布的总体,每次从总体中随机抽取n个样本,一共抽取m次,将m组抽样分别求平均值,则这些平均值的分布接近正态分布(样本的均值的分布会慢慢变成正态分布)两者的联系在于总结的都是再独立同分布条件下随机变量均值的表现ref: https://zhuanlan.zhihu.com/p/362590.转载 2021-06-13 15:50:30 · 237 阅读 · 0 评论 -
#数据分析 A/B 测试
定义A/B test 是将平台的流量均分为几组,每个组添加不同的策略,根据这几个组的用户数据指标,如:留存、人均观看时长等核心指标,最终选择一个最好的组上线。实验设计A/B Test实验的目的一般包含两个:判断哪个更好,如有两个UI,欲知A/B哪个更好一些即可根据A/Btest进行实验判定计算收益: 如最新上线的某一功能给平台带来了多少额外的DAU,多少额外的使用时长等其目标通常为:希望尽快得到实验结论,尽快决策希望收益最大化,用户体验影响最小实验的基本步骤:流量分配:在转载 2021-06-13 15:20:18 · 195 阅读 · 0 评论 -
#数据分析 MLE(最大似然估计) MAP(最大后验估计)
MLE (Maximum Likelihood Estimation 最大似然估计) 频率学派MAP (Maximum A Posteriori 最大厚颜估计) 贝叶斯学派各派观点:频率学派认为世界确定,有一个本体其真值是不变的,我们的目标是要找到该真值或真值所在的范围贝叶斯学派认为世界是不确定的,人们对世界有一个预判,通过观测数据对预判做调整,我们的目标是要找到最优的描述这个世界的概率分布对事物建模时用θ\thetaθ表示模型的参数,解决问题的本质即是求解该值- MLE假设数据 x1.转载 2021-06-13 12:41:57 · 258 阅读 · 0 评论 -
#数据分析 卡方检验、Z检验、T检验
定义:T检验适合小样本统计分析,通过比较数据的均值,研究两组数据是否存在差异Z检验 面向总体数据和大样本数据的均值对比的假设检验 (一般很难做到所以t检验使用的更多)F检验 (方差分析),检验方差相等的多个正态总体均值是否相等,进而判断各因素对实验指标的影响是否显著。(不同处理组的均值间的差别来源有两个:实验条件和随机误差,通过分析不同来源变异对总变异的贡献大小来确定可控因素对研究结果影响力的大小)卡方检验 通过频数进行检验应用场景和方法:- T检验 (单样本T检验,配对样本T检验、独立样本转载 2021-06-13 10:35:01 · 2225 阅读 · 0 评论 -
#数据分析知识点--假设检验&第一二类错误
1.假设检验&第一第二类错误假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立假设检验的基本逻辑就是:我们为了解决一个疑问,就先做一个假设,然后在这个假设的基础上推测已经发生了的事情的概率,如果这个概率低于我们设定的参考值(如0.05),则我们就拒绝假设;而如果这个概率大于0.05,则我们就没有理由来拒绝原假设。假设检验的步骤:提出原假设与备择假设从所研究总体中抽取随机样本构造检验统计量根据显著性水平确定拒绝域临界值计算检验统计量与临界值进行比较做假设检转载 2021-06-10 21:41:28 · 6534 阅读 · 0 评论 -
#数据库知识点--数据库中的联结(内连接、外联结) Leetcode 181、Leetcode 175
联结是一种机制,用来在一条Select语句中关联表,创建连结的方式是:指定要联结的所有表以及关联他们的方式内联结 :即等值连结,它基于两个表之间的相等测试,将一个表中的行与另一个表中的行相关联外联结:外联结包括没有关联的行,外联结使用 OUTER JOIN + RIGHT/LEFT ,若为Left则从左边的表选择所有的行从右边的表选择关联的行,若为right则相反示例:内联结 Leetcode 181 超过经理收入的员工外联结 Leetcode 175. 组合两个表内联结使用示例原创 2021-04-24 14:36:37 · 274 阅读 · 0 评论 -
#数据库知识点 使用partition by解决连续出现n次数字问题 (Leetcode 180. 连续出现的数字)
Leetcode 180. 连续出现的数字题目描述:表:Logs±------------±--------+| Column Name | Type |±------------±--------+| id | int || num | varchar |±------------±--------+id 是这个表的主键。编写一个 SQL 查询,查找所有至少连续出现三次的数字。返回的结果表中的数据可以按 任意顺序 排列。查询结果原创 2021-04-24 13:15:16 · 392 阅读 · 0 评论 -
#数据库知识点 分区函数 partition by &分组函数group by
-partition by 和 group by 的联系与区别partition by 和 group by 均可实现分组功能partition by 返回分组结果中的每个值,而group by常返回特定聚合函数的一个结果partition by 常与 row_number() 结合使用-partition by 和 group by 的联系与区别示例理解创建表testtable,并插入三行值,结果如下: select * from testtable as t;-实现gro原创 2021-04-24 09:50:58 · 876 阅读 · 0 评论 -
#数据库知识点 ifnull() limit offset distinct 的用法
- ifnullifnull(a,b) 若a成立则为a,否则为b-limit x返回查询结果的x条数据-offset y偏移y条语句-distinct去除重复数据应用场景:查询第y高的x条数据练习:Leetcode 176. 第二高的薪水Leetcode 177. 第N高的薪水1.Leetcode 176. 第二高的薪水编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。±—±-------+| Id | Salar原创 2021-04-23 20:31:33 · 118 阅读 · 0 评论 -
#数据库知识点-窗口函数 rank() dense_rank() row_number()
#数据库知识点- 窗口函数rank()dense_rank()row_number应用场景:排名问题Top-N问题区别:rank() 在排名相同时记为同一个值,并参与总排序dense_rank() 在排名相同时记为同一个值,但不参与总排序row_number()在排名相同时记为不同的排名示例及使用方法:select *,rank() over (order by 成绩 desc) as ranking,dense_rank() over原创 2021-04-23 19:31:53 · 253 阅读 · 0 评论