Numpy
文章平均质量分 54
xia ge tou lia
致力于数据分析行业~
展开
-
机器学习——数据集划分——train_test_split和np.split方法
一、train_test_splitsklearn中有方法能将数据集划分为训练集和测试集,实现过程如下:from sklearn.model_selection import train_test_split #数据分区x=np.arange(72).reshape(24,3) #24个样本点,3个维度y=np.arange(24)X_train,X_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0原创 2020-08-25 11:45:37 · 7343 阅读 · 3 评论 -
python基础——numpy——np.c_和np.r_函数(矩阵拼接)
np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等。np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等。如下:import numpy as npfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"a = np.array([[1, 2, 3],[7,8,9]])b = np.array([[4,5,原创 2020-08-22 21:24:11 · 465 阅读 · 0 评论 -
机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)
数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。标准化方法 公式 优点 缺点 转换区间 适用场景 Z-Score(标准化) 适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布 是一种中心化方法,会改变原有数据得分布结构 ...原创 2020-04-28 14:38:56 · 11875 阅读 · 2 评论 -
python——numpy——hstack和vstack(数组堆叠、平铺)
np.hstack():在水平方向上平铺,行数和原数据一致。np.vstack():在竖直方向上堆叠,列数和原数据一致。注意:案例1:#一维的堆叠平铺a = np.array([1,2,3])b = np.array([4,5,6])c = np.array([7,8,9])np.hstack((a,b,c))np.vstack((a,b,c))#二维的堆叠...原创 2020-04-27 21:20:12 · 1191 阅读 · 0 评论 -
python——numpy——corrcoef函数(皮尔逊相关系数)
案例1:import numpy as npdata=np.loadtxt('data5.txt',delimiter='\t')x=data[:,:-1]pd.DataFrame(x).head()coorelation_matrix=np.corrcoef(x,rowvar=0) #相关性分析,rowvar=0表示对列进行分析pd.DataFrame(coorelation...原创 2020-04-27 21:06:00 · 6830 阅读 · 2 评论 -
python——numpy——interp()函数
numpy.interp()主要使用场景为一维线性插值,返回离散数据的一维分段线性插值结果。参数:x: 数组待插入数据的横坐标.xp: 一维浮点数序列原始数据点的横坐标,如果period参数没有指定那么就必须是递增的。否则,在使用xp = xp % period正则化之后,xp在内部进行排序.fp: 一维浮点数或复数序列原始数据点的纵坐标,和xp序列等长.left...原创 2020-03-26 12:38:20 · 8878 阅读 · 0 评论 -
python——numpy——数据分区(digitize,cut,qcut,quantile函数)
digitize函数主要用于将一组数据进行分区,案例如下import numpy as npimport pandas as pdfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"df=pd.DataFrame(np.ra...原创 2020-03-13 12:05:38 · 8273 阅读 · 0 评论 -
python——numpy——roll()函数
numpy.roll(a,shift,axis=None)函数解释:沿着给定轴滚动数组元素。超出最后位置的元素将会滚动到第一个位置。参数:a : (array_like)输入数组shift : (int or tuple of ints)滚动的长度。如果是提供元组的话,下面的轴参数的维度也应该跟shift维度一样。axis : (int or tuple of ints,...原创 2020-03-12 17:58:18 · 5511 阅读 · 0 评论 -
python——numpy、pandas——diff函数(可应用于array,Series类型数据)
1、数组(array):表示相邻两个元素之差。import numpy as npa=np.array([1, 6, 7, 8, 12])diff_x1 = np.diff(a)diff_x1输出:array([5, 1, 1, 4])2、Series:可以用于同列相邻元素差值的计算(如时间间隔的计算等)。有以下数据,第四列minutes表示婴儿出生的时间点,现在我要...原创 2020-03-08 23:04:44 · 5539 阅读 · 0 评论 -
python——Numpy——random.choice函数(有放回、无放回抽样)
和np.random.randint(0,5,3)意思相同,表示从[0,5)之间随机以等概率选取3个数原创 2020-03-08 17:58:52 · 26776 阅读 · 2 评论 -
Python基础——dict(字典) ——items() 方法
Python 字典 items() 方法以列表返回可遍历的(键, 值) 元组数组。实例1首先创建一个字典dict1={}dict1[111]=3dict1[333]=19dict1[222]=13dict1输出:{111: 3, 333: 19, 222: 13}调用items方法:dict1.items()输出:dict_items([(111...原创 2020-03-07 23:26:25 · 2788 阅读 · 0 评论 -
python基础——使用defaultdict构造字典(对比dict)
一、案例有以下DataFrame:现要将构建一个dict字典,key值保存caseid,value值保存index(行号),通过观察数据我们发现,caseid不是唯一值,同一个caseid有可能存在多行。def MakePregMap(df): d = defaultdict(list) for index, caseid in df.caseid.iterit...原创 2020-03-06 22:00:37 · 1234 阅读 · 0 评论 -
python——pandas——设置dataFrame某列为空值(NaN)
有以上数据集,现在要将某列的数据变成空值(NaN)。import numpy as npstore_onlinestatus_new=store_onlinestatus.copy()store_onlinestatus_new['sid-2018']=np.nan原创 2020-02-09 14:12:38 · 23216 阅读 · 0 评论 -
如何实现统计numpy列表中各元素的个数
numpy和pandas中的Series不同,不能直接用values_count()做统计如:生成一个包含10000个1~6的列表import numpy as npimport pandas as pdrandom_data=np.random.randint(1,7,10000)random_data.mean() #均值random_data.std() #标准差...原创 2019-12-18 09:58:30 · 39158 阅读 · 0 评论