数据分析
luguanyou
这个作者很懒,什么都没留下…
展开
-
科大讯飞车辆贷款违约
1、数据介绍赛题数据由训练集和测试集组成,总数据量超过25w,包含52个特征字段。为了保证比赛的公平性,将会从中抽取15万条作为训练集,3万条作为测试集,同时会对部分字段信息进行脱敏。数据集中每个特征的含义,进入链接查看https://challenge.xfyun.cn/topic/info?type=car-loan2、数据预处理2.1、读取数据2.2、去除无效特征2.3、划分测试集和训练集3、建模3.1、逻辑回归3.2、xgboost...原创 2021-08-07 17:13:24 · 7247 阅读 · 6 评论 -
处理分类数据 非数值型编码
处理分类数据目前为止,我们处理的都是数值型变量。但是真实世界的数据集通常都含有分类型变量(categorical value)的特征。当我们讨论分类型数据时,我们不区分其取值是否有序。比如T恤尺寸是有序的,因为XL>L>M。而T恤颜色是无序的。在讲解处理分类数据的技巧之前,我们先创建一个新的DataFrame对象:上面创建的数据集含有无序特征(color),有序特征(size)和数值型...转载 2018-06-06 19:19:28 · 11743 阅读 · 4 评论 -
非数值型特征如何进行编码?
1、如下图,“AGE”“EDUCATION”“MARRIAGE”“RISK”是非数值型特征,不可以直接训练模型,需要进行编码,把特征转换成数值型,然后进行训练。2、有很多种编码方式,比如one-hot编码(独热编码),3、...原创 2018-06-06 20:15:33 · 9115 阅读 · 5 评论 -
pandas对CSV文件数据操作增删改查
1、这是要处理的CSV文件labels3.csv 2、读取CSV文件(文件和labels3.csv文件在同一目录下)import pandas as pdimport numpy as npimport matplotlib.pyplot as pltlabel = pd.read_csv('labels3.csv')3、选取特定行class_id为3#选择特定...原创 2018-08-23 14:40:52 · 15584 阅读 · 6 评论 -
数据预处理
不管是做数据分析、机器学习、深度学习等。我们拿到数据后,第一步是做数据预处理。Name Weight age Gender Alice 133 18 F Bob 160 25 M Charlie 152 36 M Diana 120 42 F 1、数据特征像age的有大小顺序的称...原创 2019-04-02 10:19:31 · 195 阅读 · 0 评论 -
coco数据类型的读取和数据分析
1、coco类型的标注信息是json文件首先我们需要读取json文件import jsonwith open("./datasets/train_restriction.json",'r') as load_f: f = json.load(load_f)print(f.keys())2、接下来我们来分析一下annotations3、读取第一个标注框的信息...原创 2019-05-23 13:53:33 · 1462 阅读 · 1 评论 -
matplotlib绘图基础
1.设置图片大小plt.figure(figsize=(20,8),dpi=80)1.保存到本地plt.savefig("./friend.jpg")2.描述信息,比如x轴和y轴表示什么,这个图表示什么plt.ylabel("my gril friend")plt.xlabel("time stage")3.调整x或者y的刻度的间距plt.ylabel("my gri...原创 2019-07-19 10:14:51 · 186 阅读 · 0 评论 -
numpy处理缺失值 填充
import numpy as npdef fill(t): for i in range(t.shape[1]): temp_col = t[:,i] nan_num = np.count_nonzero(temp_col!=temp_col) if nan_num != 0: temp...原创 2019-07-21 11:43:56 · 10725 阅读 · 0 评论