- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 说一说xgboost和lightgbm的区别是什么
但如果实例梯度值小,误差就小,说明这个实例已经训练的很好了,直接的想法就是抛弃小梯度的数据,这样一来数据的分布就会发生改变,会损失学到的模型的精确度。EFB(独立特征合并),针对海量稀疏数据,根据数据间的冲突度(如cos夹角,0101和1010的冲突很小,因为非零位不相同,非零位不相同的占比越高,冲突度越少),对冲突度小的特征进行合并,变稀疏矩阵为稠密矩阵,减少特征维度;GOSS(基于梯度的单边采样),对海量学习数据,根据其梯度,筛除绝大部分的小梯度样本(几乎无更新作用),保持精度的同时加快速度;.....
2022-07-18 17:55:50 938
转载 ML算法选型
概念均方差 MSE mean square error平均绝对差 MAE mean absolute error交叉损失熵 cross entropy欠拟合:训练集和测试集性能接近过拟合:训练集远远高于测试集性能有监督学习算法比较knn调节:n_neighbors优点:模型很容易解释。缺点:局限:仅适用于小数据集。建议:预处理数据(将特征缩放到同一范围)能提高准确率。线性模型调节alpha或者C优点:对维度非常高的稀疏数据(如文本数据)表现好。训练和预测速度快。适用于非
2022-05-15 16:35:18 164
原创 电商相关面试
抖音电商和淘宝的区别抖音确实已经是一款国民级产品,但抖音电商很多人还是不知道的,因为人们会误解抖音电商只是把一个产品视频发在了抖音上,或者只是靠抖音进行引流做微商,其实不是的。如果抖音电商一定要归类的话,它应该属于内容电商,就是通过内容进行带货,当然,抖音官方给了个更加洋气的定义“兴趣电商”。它绝对不是所谓的微商的升级版,也不是平台电商。 下面我给大家介绍一下抖音和平台电商的区别,在我们的认知里面,淘宝是一个大市场,所有的买家和卖家都可以通过淘宝这个大市场进行交易,它是一个交易平台,对吧。那么抖音的
2022-04-05 10:38:14 2658
原创 检验一个数据集是否是正太分布
1.根据偏度系数和峰度系数判断。SPSS 菜单栏,Analyze—Reports—Report Summaries in Rows「分析」→「描述统计」→「探索」→弹出对话框中,选择要分析的变量→点击「选项点」,弹出对话框中勾选「带检验的正态图」→「确定」。由于样本数较小,以K-S结果为准,sig.=0.2>0.05,服从正态分布。查看Q-Q图进一步确认。若偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态分布。 或者通过Analyze
2022-03-19 16:54:26 725
原创 ROC 曲线的新使用方法
import scikitplot as skplt#%%cmd#pip install scikit-plotvali_proba_df = pd.DataFrame(lr.predict_proba(vali_X))skplt.metrics.plot_roc(vali_y, vali_proba_df, plot_micro=False,figsize=(6,6), plot_macro=False...
2022-03-19 09:47:51 131
原创 面试经验集
越秀金科:1.SQL 内连接和外连接的区别2.python :算法 计算1000个单词出现频率第二高的单词的思路字符出现次数统计下面选取一个英文的文本,并对其中单词出现的次数进行统计,返回某个单词出现的次数python一行代码能实现的功能,就不要用两行。sentence = 'hello world nihao world hey hello java world hi python yeoman word'#先把字符串分割成单个单词列表list1 = sentence.s.
2022-03-11 11:05:53 715
原创 机器学习案例笔记
1.lambda x#首先将玩家注册日期提取出来作为单独一列RegisterDate = data.loc[:,"玩家注册时间"].apply(lambda x: x[:10])#单个参数的x.apply(lambda x:x[:10]) 取出x的前10个字符2.groupby(列) 与sql用法一样 对列分组 聚合计算#按照玩家注册日期对付费金额进行分组聚合平均计算RegisterDateMean = data["付费金额"].groupby(RegisterDate).mean()..
2022-01-04 17:09:31 1274
原创 数据预处理之数据编码
对离散的数据集进行编码是很常见的事情,标准步骤为首先划分训练集和测试集,对训练集进行学习,然后用训练集产出的中间变量对测试集进行编码如果一股脑将所有数据集进行编码/解码这样做简单快速,可以让我们快速掌握数据的基本情况,但存在几个缺陷:> 1. 数据泄露。在预处理时使用测试集的数据,会让模型提前知道一部分测试集相关的信息和答案,因此得出的结果是虚高的,模型的泛化能力将大打折扣> 2. 模型不具备编码新数据的能力,因此不能用于新数据,只能限制于当前数据...
2022-01-03 17:44:40 1370
DC 竞赛:《野蛮时代》游戏付费行为预测
2022-03-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人