01
问:贝叶斯公式复述并解释应用场景
P(A|B) = P(B|A)*P(A) / P(B)
如搜索query纠错,设A为正确的词,B为输入的词,那么:P(A|B)表示输入词B实际为A的概率
P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)
P(A)是词A出现的频率,统计获得
P(B)对于所有候选的A都一样,所以可以省去
02
问:如何写SQL求出中位数平均数和众数(除了用count之外的方法)
1. 中位数方案1(没考虑到偶数个数的情况):
1 set @m = (select count(*)/2 from table)
2 select column from table order by column limit @m, 1方案2(考虑偶数个数,中位数是中间两个数的平均):
1 set @index = -1
2 select avg(table.column)
3 from
4 (select @index:=@index+1 as index, column
5 from table order by column) as t
6 where t.index in (floor(@index/2),ceiling(@index/2))
2. 平均数
1 select avg(distinct column) from table
3. 众数
1 select column, count(*) from table group by column order by column desc l
03
问:如何避免决策树过拟合限制树深
剪枝
限制叶节点数量
正则化项
增加数据
bagging(subsample、subfeature、低维空间投影)
数据增强(加入有杂质的数据)
早停
04
问:朴素贝叶斯的理解理解:朴素贝叶斯是在已知一些先验概率的情况下,由果索因的一种方法
其它:朴素的意思是假设了事件相互独立
05
问:SVM的优点
优点:能应用于非线性可分的情况
最后分类时由支持向量决定,复杂度取决于支持向量的数目而不是样本空间的维度,避免了维度灾难
具有鲁棒性:因为只使用少量支持向量,抓住关键样本,剔除冗余样本
高维低样本下性能好,如文本分类
缺点:模型训练复杂度高
难以适应多分类问题
核函数选择没有较好的方法论
06
问:Kmeans的原理初始化k个点
根据距离点归入k个类中
更新k个类的类中心
重复②③,直到收敛或达到迭代次数
07
问:口答一个SQL题(要用到row number)
mysql中设置row number:
1 SET @row_number = 0; SELECT (@row_number:=@row_number + 1) AS num FROM table
08
问:业务场景题,如何分析次日留存率下降的问题
业务问题关键是问对问题&