- 博客(3)
- 收藏
- 关注
原创 第三天:数据科学—样本相似性和相异性
1.相似性:两个对象相似程度的数值度量。相似度是非负的,在0(不相似)和1(完全相似)之间取值。2.相异性:两个对象差异程度的度量,对象越相似,相异度越低。相异度的同义词是距离。②曼哈顿距离(可以如此理解:看网格中的距离,并不看直接连线)③明可夫斯基距离(明式距离是欧式距离距离的推广)④马式距离(通常是指样本集的相似度)在m维的空间中2点之间的真实距离。距离越短,两点相似度越大,反之亦然。P==1,明式距离就是曼哈顿距离。P==2,明式距离就是欧式距离。真懒惰啊 好好鞭策自己。(看两个向量的夹角)
2024-01-24 19:31:58 374
原创 第一天:数据科学导论
1.定义:数据科学是指通过收集组织分析大规模数据的科学,用以发现模型,并得出结论。2.性质:①有效性 ②可用性 ③未预料 ④可理解3.应用:①金融服务 ②制造业 ③能源 ④零售 ⑤保健 ⑥通信4.数据分析过程:①提出正确问题 ②争论数据 ③管理数据 ④探索数据 ⑤使用统计方法5.是数据分析流程:获取数据 > 数据预处理 > 数据探索 > 数据建模 > 结果展示6.数据分析技术:①数据探索 ②数据降维 ③数据聚类 ④关联规则 ⑤数据分类7.数据分析任务:①描述性分析 (已知的)
2024-01-20 16:58:17 1536 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人