提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
本文章为Datawhale“深度学习”小组学习的Task02-预备知识-学习日志
学习链接:添加链接描述
一、数据操作
1.张量
2.常用张量相关代码调用
2.1. 创建
2.2. 运算符
2.3. 广播机制
2.4. 索引/切片
2.5. 节省内存
X[:] = X + Y或X += Y比Y = Y + X减少操作的内存开销
2.6. 转换为其他Python对象
将大小为1的张量转换为Python标量,调用‘item()’函数或Python的内置函数
2.8. 练习
1.将本节中的条件语句X == Y更改为X < Y或X > Y,然后看看你可以得到什么样的张量。
2.用其他形状(例如三维张量)替换广播机制中按元素操作的两个张量。结果是否与预期相同?
二、数据预处理
1.读取数据集
1.创建数据集,并存于csv
import os #os库主要是对文件和文件夹进行操作
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
"""
os.makedirs() 方法用于递归创建目录。
语法格式:os.makedirs(path, mode=0o777)
参数:
path -- 需要递归创建的目录,可以是相对或者绝对路径。
mode -- 权限模式。
返回值:无
例:
path = "/tmp/home/monthly/daily"
os.makedirs( path, 0755 );
os.path.join() 用于拼接文件的路径,可以传入多个待拼接的路径,/自动填充
"""
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
f.write('NumRooms,Alley,Price\n') # 列名
f.write('NA,Pave,127500\n') # 每行表示一个数据样本
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
2.csv读取
import pandas as pd
data = pd.read_csv(../data_file)
print(data)
2.处理缺失值(“NaN”)
1.常用方法
(1)插值法
-
用一个替代值弥补缺失值
-
数值类数据
- 通过位置索引a.iloc()函数将数据划分为两部分
- 通过a.fillna()填充(可填充均值/众数/回归等)
- 类别类/离散型数据
通过pd.get_dummies()将特征变量变为特征距离。(类别的值较多不是太好的方式)
(2)删除法:直接忽略缺失值