![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学笔记
CS彩笔
这个作者很懒,什么都没留下…
展开
-
数据降维 初步理解
1、降维的概念降维的目标是用一组维度为d的向量表示维度为D的向量的有用信息(d < D),例如面对稀疏矩阵,为了防止维数太高导致计算量的爆炸增长,就可以采用降维的策略。数据可以降维说明原始数据有重复的或无用的信息,降维后的数据保留大部分重要信息,从而可以代替原始数据输入。2、降维方法2.1、PCA主成分分析对原始特征空间的重构中心:将原本特征空间线性相关的变为线性无关(正交)的。...原创 2019-08-28 12:39:01 · 2333 阅读 · 0 评论 -
决策树的剪枝和连续值,缺失值处理
剪枝 预剪枝:在使用训练集生成时,如果划分不能带来泛化性能的提升(验证集),就将其标注为叶结点。可能会导致欠拟合。 后剪枝:从训练集生成完整的决策树后自底向上来看将子树变成叶结点会不会增加泛化能力。性能优,计算量大。连续值 二分法。用过的属性可以继续用。缺失值(1)如何划分? 分析每一个属性的信息增益时,忽略对于这个属性的缺失部分,乘以系数ρ。(无缺失...原创 2019-09-23 16:29:52 · 266 阅读 · 0 评论 -
DataFrame list np.array 之间的相互转换
df <-> np.arrayarr = np.array(dataset)df = pd.DataFrame(arr)np.array <-> listarr = np.array(list)list = arr.tolist()原创 2019-09-29 12:24:59 · 397 阅读 · 0 评论