目录
np.abs()函数
np.abs() : 计算数值各元素运算的绝对值
import numpy as np
np.abs([1,-2,3,-4])
Out:
array([1, 2, 3, 4])
- np.sqrt() : 计算平方根
- np.square() : 计算平方
pd.sample()参数含义
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]
DataFrame可以是Series、DataFrame
- n的含义是抽样的个数,是整数;frac是浮点数,是抽样的比例
- replace为True含义为数据本身改变,为False含义为数据本身未改变 , 需要定义新变量接收
- weights的含义是给抽样所在axis的每个元素赋值抽样权重,所以weights的长度必须和所在axis的长度相同,不然会报错,缺失值的weights会被设置为0,如果weights加和不等于1,会被normalized到加和为1,inf和-inf值不被允许
- axis的含义是抽样的方向,axis=0,对行进行抽样,axis=1,对列进行抽样
- random_state是用来复现结果的
pd.str同时去掉分隔符和货币符号
DataFrame数据类型有千位分隔符和货币符 , 即为"$10,000.00"时 , 怎么转换为int或者float类型 :
- df.str.replace("$|," , “”).astype(float)
standarscaler注意点
- StandarScaler().fit_transform(a) 中的a不能直接是一个DataFrame , 而要是DataFrame中的具体几列
scipy.spatial中distance距离工具
from scipy.spatial import distance
两点之间的距离
- 使用distance.euclidean(a,b)
两个数据之间的距离
- 使用distance.cdist ( m[a] , n[b] )
使用Sklearn计算距离
from sklearn.neighbors import KNeigborsRegressor
knn = KNeighborsRegressor()
cols = [