数据挖掘常见面试题(持续更新中)

最新推荐文章于 2024-05-12 18:23:30 发布

武倔

最新推荐文章于 2024-05-12 18:23:30 发布

阅读量8k

点赞数 7

分类专栏：面试题文章标签：数据挖掘面试机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blowfire123/article/details/105839949

版权

1、你理解什么是数据挖掘？

数据挖掘就是由数据准备，数据挖掘和对结果的解释评估三部分组成。数据准备包括数据选取，数据预处理和数据变化。数据挖掘部分包括确定挖掘的任务或目的，选择挖掘算法。最后将结果可视化或者转化为易于理解的形式。

2、为什么会产生过拟合，有哪些方法可以预防或克服过拟合？(常问问题)

所谓过拟合（Overfit），是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。

过拟合产生的原因：出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

解决方法：

1、增大数据量

2、减少feature个数（人工定义留多少个feature或者算法选取这些feature）

3、正则化（留下所有的feature，但对于部分feature定义其parameter非常小）

4、交叉验证，重采样评价模型效能，K折交叉验证

5、保留一个验证数据集检验

几乎所有集成模型都是为了防止过拟合的。

3、样本不平衡处理方法？（好多次）

a、负样本少，就复制到一定比例

b、或者把正样本删除一部分

c、分段逐一训练（举例：正样本10000，负样本1000，将正样本随机分成10份，每份1000，然后拿着负样本的1000与正样本的每一份进行训练，最后进行融合选择）

d、模型参数调权重（模型里面有个参数可以调整样本权重）

e、交叉验证

f、根据样本随机构造新的样本

4、高维海量数据搜索

KNN(维度20以下)

欧式距离就是指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离，所以它实现的是绝对距离。

余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。

Jaccard相似度是用于比较有限样本集之间的相似性与差异性，其中Jaccard系数值越大，样本相似度越高。

Pearson相似度是余弦相似度的升级版，它把每个向量都中心化了，即每个向量会

最低0.47元/天解锁文章

关注

7
点赞
踩
107

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘常见面试题(持续更新中)

1、你理解什么是数据挖掘？数据挖掘就是由数据准备，数据挖掘和对结果的解释评估三部分组成。数据准备包括数据选取，数据预处理和数据变化。数据挖掘部分包括确定挖掘的任务或目的，选择挖掘算法。最后将结果可视化或者转化为易于理解的形式。2、为什么会产生过拟合，有哪些方法可以预防或克服过拟合？(常问问题)所谓过拟合（Overfit），是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的...
复制链接

扫一扫

专栏目录

武倔 CSDN认证博客专家 CSDN认证企业博客

码龄7年

115: 原创

2万+: 周排名

58万+: 总排名

33万+: 访问

: 等级

3089: 积分

1973: 粉丝

98: 获赞

84: 评论

585: 收藏

私信

关注

热门文章

分类专栏

每日算法题 35篇
AI工具 2篇
算法题 50篇
Leetcode周赛 5篇
虚拟化 1篇
C++ 1篇
手撕机器学习 2篇
Opencv2 2篇
机器人 2篇
Python 93篇
深度学习 3篇
算法 39篇
Tensorflow 1篇
职业规划 1篇
读书总结 2篇
Linux 1篇
Pandas 1篇
爬虫 3篇
程序员的浪漫 1篇
面试题 11篇

最新评论

Python实现截图AI文字识字小工具
Andneforhtedonná: 为什么会显示无法从baidu调用img2word呀
Python实现截图AI文字识字小工具
xiaohouzi112233: 另外，event.state == 8 和event.state == 264有时候又变成event.state == 10 和event.state == 266 [code=python] if event.state == 8 or event.state == 10: # 鼠标左键按下 ... elif event.state == 264 or event.state == 266: # 鼠标左键释放 ... [/code]
Python实现截图AI文字识字小工具
xiaohouzi112233: 截图部分程序很棒，但没有考虑鼠标移出边界的情况
算法题堆优化版本Dijkstra（Python）
Blossom258: 谢谢博主
算法题堆优化版本Dijkstra（Python）
Violent_corn: h【a】表示以a为起点的下一条边的编号，ne【idx】=h【a】表示当前边的下一条边就是刚才之前已经记录过的以a为起点的一条边，这样后面遍历的时候，就能通过i=ne【i】遍历所有以某一点为起点的所有边，可以自己模拟一遍add的过程，还不明白的话可以搜一下链式前向星，有详细的博客的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。