python数据挖掘
rungedu
计算机,算法,智能,机器学习,足球,易经,传统文化,诗词
展开
-
机器学习第一周KNN k近邻分类
机器学习第一周:机器学习的敲门砖kNN算法一、学习目标kNN算法的思想及其原理使用python手动实现kNN算法,并在sklearn中调用了解监督学习和非监督学习的概念二、kNN算法的思想及其原理 KNN算法中文名称叫做K近邻算法。它是一个有监督的机器学习算法,其核心思想是未标记的样本的类别,由距离它最近的K个邻居投票来决定。(1)有已经标记的数据,需要判断一个未标记的数...原创 2020-03-01 23:41:03 · 226 阅读 · 0 评论 -
python groupby分组运算
DataFrame groupby使用agg()运算多个分组A.groupby( [“班级”,“性别”]).agg([np.sum, np.mean, np.std])#一次计算了三个时间分组时间序列直接作为index或者有一列是时间序列,如果时间中有"/",需要进行转换:A[“生日”] = pd.to_datetime(A[“生日”],format ="%Y/%m/%d")#...原创 2019-12-16 21:58:43 · 874 阅读 · 0 评论 -
数据可视化第5周:常用图表对比
数据可视化第五周常用图表对比,当我们需要展示的时候,该如何选择图表?根据学习提供的思路:????可视化目标????数据集格式????图表异同????适用场景一.常用图表的对比柱状图&条形图联系:???? 两者均是两个字段,一个代表分类,另一个代表数值。????当数据的记录数不大于12条,分类字段的字符长度小于5时,两者可以互换。区别:????柱状图:如果分类字段时时间序列,可以优先使用柱状图,能更...原创 2019-12-15 23:56:24 · 2088 阅读 · 0 评论 -
统计学第七周 python验证正态分布/卡方分布/T
统计学第七周一.知识回顾上周已经学习过正态分布/卡方分布/T分布等知识,前面学习已学过,但是如何选择哪一个的问题?????正态分布????卡方分布????T分布二.实践1.场景:泰坦尼克号数据,主要是age年龄,Fare价格即船票价格,Embark登船的港口,需要验证数据师傅服从正太分布,T分布,卡方分布?具体数据如下:IDAgeFareEmbarked1227.25...原创 2019-12-13 17:25:55 · 2266 阅读 · 0 评论 -
数据特征分析---Python数据挖掘与分析
1.分布分析(1)定量数据的分布分析 求极差、组距、组数、分点、列出频率分布表、绘制频率分布直方图(2)定性数据的分布分析定性的数据常常使用变量来分组,然后使用饼图、柱状图等来展示2.对比分析 两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢等(1)绝对数比较(2)相对数比较3.统计量分析集中趋势:均值、中位数、众数转载 2017-12-22 14:24:52 · 1947 阅读 · 0 评论 -
箱体模型数据分析
数据质量分析,是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检测原始数据中是否存在脏数据,脏数据一般包括:缺失值、异常值、不一致值、重复数据及含有特殊符号的数据。其中异常值分析时对样本中个别值的提取,也成为离群点分析。可以采用(1)简单统计量分析(2)3б原则(正态分布)(3)箱型图分析下图为对一组数转载 2017-12-22 14:27:01 · 1706 阅读 · 0 评论