第一章 数组定义和分类
第二章 数组操作
2.1 创建数组
2.2 数组类型
2.3 数组判断
2.4 数组切片
2.5 数组拼接
第三章 数组应用
3.1 数据普通编码
1. 数据下载地址
https://archive.ics.uci.edu/static/public/73/mushroom.zip
2. 数据加载
import pandas as pd
f_path = r"../../datasets/mushroom/raw_data/agaricus-lepiota.data"
data = pd.read_csv(f_path, header=None)
3. 数据普通编码
1) 使用sklearn进行普通编码
from sklearn.preprocessing import LabelEncoder
start = time.time()
le = LabelEncoder()
for column_name, column_data in data.items():
le.fit(column_data)
data.loc[:, column_name] = le.transform(column_data)
print(time.time() - start)
2) 去掉校验后,sklearn内部代码
def _map_to_integer(values, uniques):
"""Map values based on its position in uniques."""
table = {val: i for i, val in enumerate(uniques)}
return np.array([table[v] for v in values])
start2 = time.time()
data = np.asarray(data)
for i in range(data.shape[1]):
temp = data[:, i]
classes = np.unique(temp)
data[:, i] = _map_to_integer(temp, classes)
print(time.time() - start2)
3) 模仿
start1 = time.time()
data = np.asarray(data)
for i in range(data.shape[1]):
temp = data[:, i]
classes = np.unique(data[:, i])
for idx, j in enumerate(classes):
temp[temp == j] = idx
data[:, i] = temp
print(time.time() - start1)
4. 对比分析
调用sklearn编码时间:0.03752398490905762
仿写的时间: 0.06799888610839844
sklearn内部代码:0.06450891494750977
根据上述结果可以看出,自己的代码还有很大的优化空间,欢迎大家提供思路。