使用工具(这块不用看是我写给自己的 ):
常用工具:
numpy、Pandas、matPlotlib、Scikit-Learn
代码编写测试工具:
Jupyter(易于编写和测试)
Jupyter安装及使用:
下载anaconda(官网/清华源)
安装anaconda后,找到anaconda prompt终端,输入Jupyter notebook,跳转至路径,选择路径,单击New进行创建。创建后可自定义文件名:***.ipynb
数据集导入
下载数据集***.csv,方便起见,移动至之前创建的jupyter notebook所在文件夹
导入工具:pandas
import pandas as pd#使代码简洁化
df = pd.read_csv('database_name.csv')#读取数据集,返回一个数据框架(data frame)
常用基础方法和属性(参考pandas文档)
可参考:jupyter常用方法及属性
- shape(形状)
返回数据集形状(如:(行数,列数))
df.shape
- describe(描述)
df.describe()
返回数值列的汇总统计信息,如最小值、最大值、标准差、平均值等信息
- value(值)
df.value
返回一个数组,用来描述数据集的所有值
- drop(删除)
以删除列为例
X = df.drop(columns = ['column_name'])#删除名为columns_name的列
shortcuts
- 命令模式(代码块边框为蓝色)
h:显示快捷键列表
b:插入新代码块&#