数据分析
文章平均质量分 65
哈哈你个大锤子
将喜欢的东西留着自己身边
展开
-
特征工程
特征工程文章目录特征工程前言一、特征工程的重要性和处理二、数据预处理和特征处理1.数据预处理2.特征处理1、标准化2、区间缩放法3、归一化4、定量特征二值化5、定性特征哑编码6、缺失值处理总结前言 数据和特征决定了机器学习地上限,而模型和算法只是逼近这个上限而已一、特征工程的重要性和处理 特征工程就是从原试数据中提取特征的原创 2021-05-03 12:50:29 · 697 阅读 · 1 评论 -
python画箱型图
# 箱型图# orient="v" 箱子垂直显示,默认为'h'水平显示# showfliers=False,#异常值关闭显示# fliersize=15 设置离散值marker大小,默认为5# flierprops = {'marker':'o',#异常值形状# 'markerfacecolor':'red',#形状填充色# 'color':'black',#形状外廓颜色#原创 2021-04-24 21:58:00 · 1422 阅读 · 1 评论 -
数据分析----数据探索实践(工业蒸汽预测)
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。import seaborn as snsfrom scipy import statsimport warningswarnings.filterwarnings("ignore")%mat原创 2021-04-21 23:28:29 · 583 阅读 · 0 评论 -
数据类型转换
数据集中的数据,有的是整数和浮点数类型,有的可能是字符串类型、布尔类型等,而数据分析和机器学习算法喜欢的是整数或者浮点数(统称“数值”)。如果数据集中出现非数值类型的数据,就需要对其进行适当转化。常用方法1.astypePandas是在数据科学中必知、必会的工具,对于数据类型转化他提供了一个直接的方法astypedtype : data type, or dict of column name -> data typecopy : bool, default Trueerror原创 2021-04-15 22:18:46 · 169 阅读 · 0 评论 -
pandas----df[‘‘]、df[[‘‘]]、df.的区别
df[ ] : 只取某列的值,是键值, 返回Series类型df[[ ]] :取完全的某列,是表格,返回DataFrame类型df. :只取某列的值,是键值, 返回Series类型原创 2021-04-15 20:36:23 · 7171 阅读 · 1 评论 -
机器学习----数据探索
一、变量识别变量识别就是从变量类型、数据类型等方面进行分析。可以从以下方面进行变量识别: 1、输入变量与输出变量输入变量(也称为“predictor”或者“特征”)输出变量(也称为“target”或者“标签)2、数据类型字符型数据数值型数据3、变量(特征)类型连续型变量数值型变量二、变量分析1、单变量分析对于连续性变量,需要统计数据的中心分布趋势和变量分布对于类别型变量,一般使用频次或者占比表示每一个类别的分布情况,对应的衡量指标分别是变量的频次(次数)和频率(占原创 2021-04-14 23:53:02 · 1338 阅读 · 2 评论