pandas
文章平均质量分 92
卡拉比丘流形
一枚对社会心理学、预防医学、数学建模和人工智能感兴趣的小菜鸟【本:大数据→研:人工智能(情感计算方向)】,欢迎大家一起来交流学习呀!
展开
-
基于聚类的离群点检测(sklearn实现)
本文主要包括以下三个方面:1. 对Iris数据集应用kmeans聚类方法进行离群点检测,并分别采用tsne、MDS、Isomap和PCA降维将原数据降到2维并在新数据中标出离群点。2. 使用Kmeans聚类、DBCAN聚类和BIRCH聚类方法分别对去除离群点前后的数据集进行聚类,最后通过比较他们的NMI值确定聚类效果的好坏3. 对Iris数据集先分别采用sne、MDS、Isomap和PCA降维,然后对降维后的数据进行离群点的检测。原创 2022-04-22 11:06:56 · 6823 阅读 · 1 评论 -
(四)pandas开源课程学习笔记——数据清洗及特征处理
这里写目录标题2 第二章:数据清洗及特征处理2.1 缺失值观察与处理2.1.1 任务一:缺失值观察2.1.2 任务二:对缺失值进行处理2.2 重复值观察与处理2.2.1 任务一:请查看数据中的重复值2.2.2 任务二:对重复值进行处理2.2.3 任务三:将前面清洗的数据保存为csv格式2.3 特征观察与处理2.3.1 任务一:对年龄进行分箱(离散化)处理2.3.2 任务二:对文本变量进行转换2.3.3 任务三:从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)原创 2022-02-02 20:20:55 · 324 阅读 · 0 评论 -
(五)pandas开源课程学习笔记——数据的合并
目录开始之前,导入numpy、pandas包和数据第二章:数据重构2.4 数据的合并2.4.1 任务一:将data文件夹里面的所有数据都载入,观察数据的之间的关系2.4.2:任务二:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up方法一、使用concat方法:方法二、用DataFrame自带的方法join方法方法三、使用Panads的merge方法2.4.3 任务三:将train-left-down和train-right-do原创 2022-02-08 22:13:39 · 1209 阅读 · 0 评论 -
(三)pandas开源课程学习笔记——探索性数据分析
目录开始之前,导入numpy、pandas包和数据1.6 了解你的数据吗?1.6.1 任务一:利用Pandas对示例数据进行排序,要求升序1.6.2 任务二:对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列),从这个数据中你可以分析出什么?1.6.3 任务三:利用Pandas进行算术计算,计算两个DataFrame数据相加结果1.6.4 任务四:通过泰坦尼克号数据如何计算出在船上最大的家族有多少人?1.6.5 任务五:学会使用Pandas describe()函数查看数据基本统计原创 2022-01-22 21:09:33 · 2319 阅读 · 0 评论 -
(二)pandas开源课程学习笔记——pandas基础
目录1.4 知道你的数据叫什么1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子????[开放题]1.4.2 任务二:载入"train.csv"文件1.4.3 任务三:查看DataFrame数据的每列的名称1.4.4 任务四:查看"Cabin"这列的所有值1.4.5 任务五:加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除1.4.6 任务六: 将['Passe原创 2022-01-22 19:16:55 · 2282 阅读 · 0 评论 -
(一)pandas开源课程学习笔记——数据载入及初步观察
目录1 第一章:数据载入及初步观察1.1 载入数据1.1.1 任务一:导入numpy和pandas1.1.2 任务二:载入数据1.1.3 任务三:每1000行为一个数据模块,逐块读取1.1.4 任务四:将表头改成中文,索引改为乘客ID1.2 初步观察1.2.1 任务一:查看数据的基本信息1.2.2 任务二:观察表格前10行的数据和后15行的数据1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False1.3 保存数据1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一原创 2022-01-22 13:09:35 · 1213 阅读 · 0 评论