数据分析
我真不会写代码
机器学习,深度学习,医学影像处理
展开
-
数据分析与挖掘-挖掘建模
经过数据探索与数据的预处理,得到了可以用于建模的数据。更加挖掘目标和数据的形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模式。常见的分类与预测算法:回归分析:回归分析是通过建立模型来演技变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具。、聚类分析:聚类分析实在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。常见的聚类方法:关联规则:目的是在一个数据集中原创 2020-09-30 09:08:41 · 1733 阅读 · 0 评论 -
数据分析与挖掘(数据预处理)
在数据挖掘中,海量的原始数据存在着大量不完整(有缺失)、不一致、又异常的数据,影响数据挖掘建模的执行效率,甚至导致数据挖掘失败,所以数据的预处理尤为重要。一、数据清洗主要是删除原始数据中的无关数据、重复数据、噪声数据等,处理缺失值、异常值。处理缺失值的方法分为三类;删除数据、数据插补、不处理。其中插补方法包括:均值、中位数、众数、使用固定值、最近邻插值、回归方法、插值法等等异常值处理:在处理异常值时,有可能有些异常值蕴含着有用的信息。常见的异常值处理方法包括:删除异常值的记录、视为缺原创 2020-09-29 11:23:01 · 1120 阅读 · 0 评论 -
Pandas中的DataFrame的基本操作
DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。创建DataFrame:df.values 返回ndarray类型的对象 df.index 获取行索引 df.columns 获取列索引 df.axes 获取行及列索引 df.head(i) 显示前 i 行数据原创 2020-09-04 11:22:16 · 181 阅读 · 0 评论 -
Pandas中的Series
一、什么是PandasPandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。二、Pandas的两大利器①DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。②它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标原创 2020-09-04 10:29:09 · 665 阅读 · 0 评论 -
bagging && boosting && stacking 集成学习
什么是集成学习?集成学习归属于机器学习,他是一种「训练思路」,并不是某种具体的方法或者算法。集成学习的核心思路就是「人多力量大」,它并没有创造出新的算法,而是把已有的算法进行结合,从而得到更好的效果。集成学习会挑选一些简单的基础模型进行组装,组装这些基础模型的思路主要有 2种方法:1.bagging2.boostingBagging的核心思想是民主,所有基础模型都一致对待,每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。具体过程:从原始样本集中抽取训练.原创 2020-08-27 10:53:36 · 246 阅读 · 0 评论 -
机器学习中用到的数据预处理一般步骤
数据预处理的简单定义:一种数据挖掘方法,本质就是为了将原始数据转换为可以理解的格式或者符合我们挖掘的格式。主要包括四个步骤:(1)数据清洗(2)数据集成(3)数据规约(4)数据变换数据清洗: 填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理数据”; 数据集成:使用多个数据库,数据立方体或文件; 数据归约: 用替代的,较小的数据表示形式替换元数据,得到信息内容的损失最小化,方法包括维规约,数量规约和数据压缩; 数据变换:将数据变换成使用挖掘的形式。...原创 2020-08-12 14:26:05 · 2230 阅读 · 0 评论