积累积累积累积累

儒雅的晴天

于 2021-10-26 22:08:50 发布

阅读量759

点赞数

文章标签：概率论

本文链接：https://blog.csdn.net/weixin_39915444/article/details/120965169

版权

卡方检验

结合日常生活的例子，了解什么是卡方检验 - 简书

卡方检验就是检验两个变量（自变量和因变量）之间有没有关系。

以运营为例:

卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；
不同城市级别的消费者对买SUV车有没有什么区别；

如果有显著区别的话，我们会考虑把这些变量放到模型或者分析里去。

比如投掷硬币，判断硬币是不是均衡的。

卡方检验的公式：

1 这个公式求得的值
2 自由度(degree of freedom，不熟悉的可以去看我在简书的用可视化思维解读统计自由度)
3 置信度

其中，自由度我们可以求出来，置信度的话，我们按照我们自己意愿挑选，一般我们会挑90％或者95%。

P值

p 值是什么？数据科学家用最简单的方式告诉你 | 机器之心

百度百科：P值是用来判定jia判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。

P值（P value）就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。总之，P值越小，表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

我们一般认为

就可以认为假设是不正确的。

0.05这个标准就是显著水平，当然选择多少作为显著水平也是主观的。

假设检验

在假设检验中，常用 p 值确定结果的统计显著性。

假设检验是用来通过一组数据检验针对总体的声明（零假设）有效性的。如果零假设不成立，我们就会相信备择假设.

要知道声明是否有效，就要用 p 值来衡量证据的强度，从而了解到它是否有统计显著性。如果证据支持备择假设，那就拒绝零假设并接受备择假设。

假设检验的常用方法之一是 Z 检验。

顺丰相关的业务题：如何让客户填单的时候规范化，如何对用户运单上填写的物品进行自动分类，如何对他们填写的金额进行审核。（异常检测？？）

达观数据分享文本大数据的机器学习自动分类方法 - 云+社区 - 腾讯云

以统计理论为基础，利用机器学习算法对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析，已成为文本分类领域的主流。

“文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程”

机器学习方法运用在文本分类上的基本过程就是：标注——利用人工对一批文档进行了准确分类，以作为训练集（进行机器学习的材料）；训练——计算机从这些文档中挖掘出一些能够有效分类的规则，生成分类器（总结出的规则集合）；分类——将生成的分类器应用在有待分类的文档集合中，获取文档的分类结果。

特征词条及其权值的选取称为目标样本的特征提取，特征提取算法的优劣将直接影响到系统的运行效果。

假设用户给定的文档向量为D2，未知的文档向量为q，两者的相似程度可用两向量的夹角余弦来度量，夹角越小说明相似度越高。

目前大多数中文文本分类系统都采用词作为特征项，作为特征项的词称作特征词。

如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，会对分类系统的运算性能造成极大的压力。在这样的情况下，要完成文本分类几乎是不可能的。寻求一种有效的特征降维方法。

特征抽取的主要功能就是在不损伤核心信息的情况下降低向量空间维数，简化计算，提高文本处理的速度和效率。相对于其他分类问题，文本特征抽取的方式常见的有4种：

用映射或变换的方法把原始特征变换为较少的新特征；
从原始特征中挑选出一些最具代表性的特征；
根据专家的知识挑选最有影响的特征；
基于数学方法进行选取，找出最具分类信息的特征。

文本分类的流程如图 1所示，包括训练、特征抽取、训练模型、分类预测等几个主要环节。

SQL优化

1、禁止使用select *，只获取需要的字段--查询很多无用字段，增加CPU/IO/NET消耗；不能有效的利用覆盖索引；增删字段易出bug
2、禁止使用属性的隐式转换select * from customer where phone=123123--会导致全表扫描，不能命中索引
3、禁止在where条件上使用函数和计算
4、禁止负向查询（NOT != <> !< !> MOT IN NOT LIKE）和%开头的like（前导模糊查询）--会导致全表扫描
5、禁止大表使用JOIN查询和子查询--会产生临时表，消耗较多CPU和内存，影响数据库性能
6、在属性上进行计算不能命中索引--如 select * from order where YEAR(date) <= '2017'不能命中索引导致全表扫描
7、复合索引最左前缀--例如user 表建立了（userid,phone）的联合索引

8、用union如果可以尽量使用union all 因为union会进行去重和排序

9、优先选择join而不是where

10、明知道只有一条记录返回，建议加上limit 1

对数据分析的理解

我认为数据分析就是借助数据来指导决策。

利用数学，统计学，计算机，可视化等方法对数据进行汇总，归纳，找规律的过程，称为数据分析。

将业务需求，疑问转化成为数据问题，再把数据结论转化成为业务答案。这个过程我认为是一次有意义的数据分析。

1.问题定义与细分
明确定义我们要分析的问题，找出可以量化的点，并逐步细分。比如你要分析北京的交通情况，那么细化下来你可能要着手的点有：1.几个重点路段各时间段的车辆速度分析；2.北京的各种出行方式比重；3.北京与上海、深圳等城市的拥堵情况对比；4.北京市民出行时间预测……

2.数据收集与清洗
这个很好理解，数据是才是决策的原材料，定义好问题之后，就需要找到相关的数据，并对数据的缺失值、异常值进行处理，对数据进行归一化。

3.数据建模与分析
一般我们可以做探索性的数据分析、验证性的数据分析和预测型的数据分析。探索是指我们拿到一堆数据没有头绪的时候，通过对数据进行有规律地排列展示，发现一些深层的结论；验证指的是我们本来通过经验得出一些结论，但是要通过具体的数据来进行佐证；预测则是指我们根据历史的数据，去预测未来可能产生的数据。（如果想详细了解，可以看看DC学院的这门课：数据分析师）

4.撰写数据报告
数据报告则是根据我们分析的结论，进行阐述和说明，需要利用可视化和有逻辑的数据展示来达到更好的说服力。

你觉得做数据分析需要掌握哪些东西？

https://blog.csdn.net/donghuia/article/details/118093899https://blog.csdn.net/donghuia/article/details/118093899数学知识、分析工具、编程语言、业务理解、逻辑思维、数据可视化、协调沟通、快速学习。

在顺丰，数据分析可以做哪些事情 快递行业如何“点数成金”？|物流|大数据|顺丰|运营_网易订阅

大数据在物流客户管理中的应用主要表现在客户对物流服务的满意度分析、老客户的忠诚度分析、客户的需求分析、潜在客户分析、客户的评价与反馈分析等方面。

物流业务具有突发性、随机性、不均衡性等特点，通过大数据分析，可以有效了解消费者偏好，预判消费者的消费可能，提前做好货品调配，合理规划物流路线方案等，从而提高物流高峰期间物流的运送效率。

对用户消费习惯充分了解，更重要的是可以在对其分析基础上，预测并分化库存和物流压力，从而产生更高效配置和资源节约。

比如，预测双十一的成交量以及物流压力，提前做出准备。

构建了高度契合物流行业特性的业务预测、选址规划、网络与线路规划算法等系统，实现了多场景多环节多维度业务预测，解决多类实际业务场景的选址难题。

通过大数据分析，可以有效了解消费者偏好，预判消费者的消费可能，提前做好货品调配，合理规划物流路线方案等，从而提高物流高峰期间物流的运送效率。

利用快递运输沉淀数据，通过大数据的使用，快递企业可以轻松计算出公路热点和运输距离分布并可推测出企业目标市场的中心城市及业务类型，为企业人力、物力的调配与安排提供可靠的参考。

快递大数据通过预测，对精准控制风险带来巨大优势，从而是企业可以主动采取措施避免风险。（比如用户隐私泄露）快递公司应持续通过“制度+技术”手段，完善信息安全风控系统，对内部账号进行实时监控，主动发现违法违规行为。

通过对历史运营数据和实时增量数据的分析，掌控和管理每个车辆的运营数据，优化运营路线和发车频率，以提高运输与配送效率、减少物流成本、在管理上大有作为。在运力高峰时段的准确预测，可以实现有效的资源匹配，降本增效。

通过数据，了解消费者的消费偏好及习惯，预测消费者需求，将商品物流环节和客户的需求同步进行，并预计运输路线和配送路线，缓解运输高峰期的物流压力，提高客户的满意度，提高客户粘度。

gmv怎么分析

干货 | 三类实用的数据分析方法__凤凰网

作为电商平台，GMV（成交总额）是衡量平台竞争力（市场占有率）的核心指标。一般电商平台GMV的计算公式为：GMV=销售额+取消订单金额+拒收订单金额+退货订单金额，即GMV为已付款订单和未付款订单两者之和。

GMV下降如果是因下单用户减少所造成的，那么是访客数（流量）减少了，还是转化率下降了呢？如果是访客数减少了，那是因为自然流量减少了，还是因为营销流量不足？

如果是自然流量下降的话，可能需要在用户运营和产品运营端发力，如果是营销流量不足，那么可以通过营销活动或者站外引流的形式增加曝光量。

当两个表相连接，出现数据倾斜，你怎么处理？如果是两个大表连接出现数据倾斜又能怎么处理？

大表*大表：对其中的一个表进行过滤，将这个表转化成相对小的表，然后强制执行map端join

大表与大表join数据倾斜_hive的数据倾斜以及优化策略_weixin_39964590的博客-CSDN博客

假设现在我们想根据公司以前的快递数据训练一个模型用来预测公司以后每个月的快递量，并且向公司提供这项服务，在公司的相关属性数据可以获得的情况下，你会怎么选择模型？

中国快递包裹总量的预测-基于SARIMA模型 - 云+社区 - 腾讯云

****************************************************************************************************************************************************************************************************************************

就是如何让客户填单的时候规范化，如何对用户运单上填写的物品进行自动分类，如何对他们填写的金额进行审核。
假设检验和SQL的知识
京东618大促期间，怎么保证物流履约率全国全局最优（分有销量目标和无销量目标两种情况）
聚类的评价指标
3.聚类算法原理
4.XGB调参，某某参数有啥用
5.挖实习
6.RF与XGB的区别
sql里面的排序窗口区别
5.XGB与LGB的区别优化
聚类指标怎么选取的（业务逻辑）

4、k-means缺点

5、样本不平衡问题的处理方法
SQL优化问题（这个我没准备，顺便问了sql语句的执行顺序）

8、你常用的预测类方法有哪些

9、自己做数据分析的优势有哪些
介绍一个聚类算法

6、介绍一个tableau看板的项目，tableau的优缺点

7、期望的方向：偏业务的还是偏技术的
在顺丰，数据分析可以做哪些事情

4、hive的特点

SQL题：查找出连续登陆七天的ID（ID,Time）
4、异常值检测的方法（目前实习恰好做的数据监控）
5、学过什么机器学习方法嘛？自学的吗？
6、用过Hive嘛（有了解过，但没有实践过，自己搭不了环境）

会hadoop吗（我说完不会就感觉不会通过了。。。后面他有讲实际工作中sql用的会很少）
2.sql里不同引擎的区别（就记得个innodb，剩下那个只想起来个m开头，然后讲了下他们存储索引结构的区别）
3.sql有没有什么提高查询效率的方法或者功能（我讲了索引的一些内容）
4.如果现在有一堆内存放不下的大规模数据，你会怎么处理它（没答出来，面试官说是用归并思想）
5.你对数据分析的步骤一般有哪些
6.讲一下为什么想来顺丰的数据分析岗位（这个我真的提前没准备，前言不搭后语）
7.讲一下Kmeans算法
gmv如何分析

儒雅的晴天

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
积累积累积累积累

卡方检验结合日常生活的例子，了解什么是卡方检验 - 简书卡方检验就是检验两个变量（自变量和因变量）之间有没有关系。以运营为例:卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；不同城市级别的消费者对买SUV车有没有什么区别；如果有显著区别的话，我们会考虑把这些变量放到模型或者分析里去。比如投掷硬币，判断硬币是不是均衡的。卡方检验的公式：1 这个公式求得的值 2 自由度(degree of freedom，不熟悉的可以去看我在简书的用可视化思维解读统计自由度.
复制链接

扫一扫