目录标题
1、给一个无序数组,怎么才能合理采样
无序数组是相对有序数组而言的,无序数组并不等于随机,将无序数组进行洗牌得到随机排列。
for i in range(len(n)):swap(arr[i],arr[random(i,n)])
产生数组第一位的值,然后递归对剩余数组进行相同的过程,可以产生n!中等可能的排序情况。
2、常用python库
numpy:矩阵运算、sklearn:机器学习与数据挖掘、pandas:数据表、seaborn:数据可视化、scipy:数学计算
3、行存储和列存储的区别
行存储:传统数据库的存储方式,同一张表内的数据放在一起,插入更新很快,缺点是每次查询即使只涉及几列,也要把所有数据读取
列存储:OLAP 等情况下,将数据按照列存储会更高效,每一列都可以成为索引,投影很高效。缺点是查询是选择完成时,需要对选择的列进行重新组装。
当你的核心业务是 OLTP 时,一个行式数据库,再加上优化操作,可能是个最好的选择。
当你的核心业务是 OLAP 时,一个列式数据库,绝对是更好的选择”参考
OLTP(on-line transaction processing)翻译为联机事务处理,
OLAP(On-Line Analytical Processing)翻译为联机分析处理,
从字面上来看OLTP是做事务处理,OLAP是做分析处理。
从对数据库操作来看,OLTP主要是对数据进行增删改,OLAP是对数据进行查询。
4、K-Means 算法原理及改进,遇到异常值怎么办?评估算法的指标有哪些?
k-means 原理:在给定 K 值和 K 个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点

文章介绍了无序数组的随机采样方法,常用Python库如numpy和sklearn,行存储与列存储的区别,K-Means算法的原理及异常值处理,数据预处理包括缺失值和异常值的处理,以及随机森林和PCA的基本思想。此外,还提到了SQL中的NULL与空字符串区别,数据缺失的处理策略,以及如何避免决策树过拟合。
最低0.47元/天 解锁文章

593

被折叠的 条评论
为什么被折叠?



