数据处理
best啊李
这个作者很懒,什么都没留下…
展开
-
常见的数据预处理
一、背景原始数据存在的几个问题:不一致;重复;含噪声;维度高。1.1 数据挖掘中使用的数据的原则尽可能赋予属性名和属性值明确的含义;去除惟一属性;去除重复性;合理选择关联字段。1.2 常见的数据预处理方法数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。数据集成:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这...转载 2018-06-27 16:36:06 · 1948 阅读 · 0 评论 -
数据预处理11条
import pandas as pd import numpy as np from sklearn.preprocessing import Imputer #数据预处理的函数 #缺失值处理 np.random.seed(8) df = pd.DataFrame(np.random.randn(6,4),columns = ['col1','col2','col3','col4']) df...原创 2018-07-12 11:33:56 · 251 阅读 · 0 评论 -
四种抽样方法
#简单的随机抽样 随机的抽取200个,因为loadtxt读取的类型为张量,sample无法读取,所以用下面的行驶 def rand_sample(file): data = np.loadtxt(file) num_sample = len(data) indexs = list(range(num_sample)) rand_index = random.samp...原创 2018-07-12 23:03:31 · 6969 阅读 · 0 评论