1.数据介绍
我们将要研究的数据集包含了各种汽车的信息。每辆汽车技术方面的信息有:电机的位移,汽车重量,每加仑的耗油量跑多少英里,汽车的加速有多快。使用这些信息我们可以预测汽车的来源,无论是北美,欧洲或者是亚洲。我们可以看到,跟我们先前的分类数据集不一样,类标签有是三个,使我们的工作稍稍具有更多的挑战。
这是数据的前几行:
18.0 8 307.0 130.0 3504. 12.0 70 1 "chevrolet chevelle malibu"
15.0 8 350.0 165.0 3693. 11.5 70 1 "buick skylark 320"
18.0 8 318.0 150.0 3436. 11.0 70 1 "plymouth satellite"
以下信息是数据集的列:
。mpg--- 每加仑油跑多少英里。连续的
。cylinders-----电机中的汽缸数。数量,序列,类别
。displacement----电机的尺寸。连续的。
。horsepower----生产的马力。连续的。
。weight----汽车的重量。连续的
。 acceleration---加速度。连续的。
。year---汽车被制造的时间。整数型,分类。
。origin--整数和分类。1.北美,2.欧洲,3.亚洲
。car-name---汽车的名字
练习
。导入Pandas包,读取auto.csv,命名为cars
。使用Series的unique方法将origin列的唯一元素值赋值给unique_regions.然后使用print函数显示unique_regions
import pandas as pd
cars = pd.read_csv("auto.csv")
print(cars.head())
unique_regions = cars["origin"].unique()
print(unique_regions)