数据挖掘
Treasureashes
总有一条非走不可的弯路。
展开
-
使用K-NN时的维数灾难
K-NN最大的缺陷就是很容易引起维数灾难,在高维空间,数据变得异常稀疏,这就使得即使是最近的邻居数据点,所需计算数据点之间的距离也变得异常得远。这导致了随着变量的增加,训练集所要求的数据量呈指数级的增长,计算量也随之变得异常大。为了解决这个问题,有几种措施可以尝试:对变量(Predictor)进行降维,可以用PCA等降维方法。 尝试找到计算“最近邻”(almost nearest ...原创 2020-03-26 19:29:25 · 760 阅读 · 0 评论 -
InvalidArgumentError (see above for traceback): Shape [-1,60,60,2] has negative dimensions
详细错误信息最直接的错误,主要在最后一行: 2%|▌ | 998/50000 [00:22<20:00, 40.80it/s] 2%|▌ | 1003/50000 [00:23<20:09, 40.50it/s]2020-03-06 18:54:45.957950: W...原创 2020-03-06 23:02:58 · 550 阅读 · 0 评论 -
数据可视化的重要性
平均值(Mean)受例外者(Outlier)和丢失数据(Missing data)的影响太大,通常鲁棒性(Robust)很差。如果使用,需要格外注意这点的影响。与之相比,中位数(Median)的鲁棒性会好很多。在预处理(Pre-processing)的过程中,一定要记得利用数据总结(Numerical summaries)、可视化工具(visualization tools)和鲁棒性评估...原创 2020-02-20 15:12:43 · 1487 阅读 · 0 评论 -
数据挖掘中的Attribute
与特征(Feature)看起来是一个意思,但是实质上意思有些差别:Attribute更侧重于特征对结果的贡献,Feature更是一种客观存在的特征。例如:小明考了一百分,这是Feature,对于妈妈给他糖这是Attribute,但对于邻居家小孩的快乐生活可能就不是Attribute类似的意思还有预测器(Predictor):侧重于与所要预测的结果之间的关系,比如小明考一百分和小明...原创 2020-02-20 15:11:19 · 410 阅读 · 0 评论