pandas
文章平均质量分 79
李家半仙儿
这个作者很懒,什么都没留下…
展开
-
随机森林填充特征列的空值
用随机森林填充空值在平时候的数据集中,很多数据不太能够简单粗暴地直接填充众数或者平均值,这样填充反而会影响数据的准确性,所以需要我们对该特征列用随机森林的方法来填充空值步骤:取出需要填充空值的特征列当做标签列Y将没有空值的所有特征列包括原始数据中的标签列取出来当做X手动划分数据集:将Y中有空值的所有行划分成xtest,Y中不是空值的列划分成xtrain同样的方法划分ytrain, ytest导入随机森林的模块,用xtest来预测ytest,从而将Y中所有的空值填充data = pd.r原创 2021-03-31 19:40:16 · 729 阅读 · 0 评论 -
数据预处理步骤以及相关sklearn模块的使用
数据预处理一、数据挖掘的5大流程获取数据数据预处理:让数据适应模型,匹配模型的需求数据类型不同:有的是文字,有的是数字,有的连续,有的离散,有的含时间序列有缺失值,有异常量纲不一,差距太大数据量太大或者太小,呈现偏态特征工程:可以降低计算成本,提升模型上限特征太多或太少特征和标签无关特征之间有相关性建模:测试模型并预测出结果上线,验证模型效果二、sklearn中的数据预处理和特征工程模块preprocessing:几乎包含数据预处理的所有内容模块Impute原创 2021-03-27 17:30:23 · 481 阅读 · 0 评论 -
机器学习之逻辑回归(对数几率回归)
机器学习算法之逻辑回归(对数几率回归)- 做分类的一、概述:逻辑(logistic)回归, 又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域1、几率几率:一个时间发生的概率 / 不发生的概率2、逻辑逻辑:指的是logistic function3、回归回归:来源于线性回归的 Z = XW,使用线性回归去拟合逼近一个‘界’,使得按照这个界进行数据分类后得到的损失函数最小,以概率0.5为分界线,将数据分为正例和反例,使得Z> 0对应于原创 2021-03-23 14:53:26 · 1529 阅读 · 0 评论 -
机器学习之KNN算法
机器学习之KNN算法——近朱者赤,近墨者黑KNN算法概述KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,也叫作邻近算法核心思想:KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别kNN是一种常见的监督学习方法。工作机制简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k各训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任原创 2021-03-20 16:27:03 · 606 阅读 · 0 评论 -
pandas基础之缺失数据的处理
pandas基础之缺失数据的处理一、了解缺失的信息1.isna 和 notna方法对于对Series使用会返回布尔列表对DataFrame使用会返回布尔表,一般和sum()一起使用,了解每一列具体有多少个缺失值df.isna().sum()School 0Class 4ID 6Gender 7Address 0Height 0Weight 13Math 5Physics原创 2021-03-16 20:29:49 · 374 阅读 · 0 评论