![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析实战篇
小林的学习之路
小白没事,弱鸡没事,踏踏实实学习就好;祝你开心。
展开
-
Titanic 生存分析
参考: https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanic https://www.kaggle.com/goldens/classification-81-3-with-simple-model-nested-cv 1. 问题描述 泰坦尼克号的沉没是历史上最臭名昭著的沉船事...原创 2019-06-11 20:43:48 · 650 阅读 · 0 评论 -
基于K均值聚类的葡萄酒品种判别
摘要 本文基于K均值聚类方法,首先利用使得组间平方和较大、组内平方和较小的方法确定聚类簇K,再对葡萄酒数据进行聚类,得到误判率为3.37%。为描述不同类别葡萄酒的特点,利用主成分分析,探究影响分类的因素,发现类别1与非类别1的差异主要是脯氨酸含量的高低。 关键词:K均值聚类;葡萄酒;主成分分析 ABSTRACT This article trys to classify distinguishe...原创 2019-06-21 16:51:54 · 8871 阅读 · 3 评论 -
基于朴素贝叶斯对文档进行分类
朴素贝叶斯分类中,一个重要的工具是 sklearn 包。 1. sklearn 机器学习包 sklearn 的全称叫 Scikit-learn(人工智能与机器学习),它提供了3个朴素贝叶斯分类算法: 高斯朴素贝叶斯(GaussianNB):特征变量是连续变量,符合高斯分布。 多项式朴素贝叶斯(MultionomialNB):特征变量是离散变量,符合多项分布。在文档分类中特征变量体现为一个单词出现...转载 2019-07-04 14:20:25 · 818 阅读 · 0 评论