数据分析
文章平均质量分 82
小瓶盖的猪猪侠
这个作者很懒,什么都没留下…
展开
-
特征相关性计较
用于度量两个连续型变量之间的线性关系。取值范围在-1到1之间,0表示无线性关系,1表示完全正相关,-1表示完全负相关。原创 2023-12-01 11:09:46 · 140 阅读 · 0 评论 -
特征选择:过滤法,嵌入法,包装法
到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数。通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。原创 2023-06-18 22:07:39 · 1128 阅读 · 0 评论 -
数据预处理:标准化、正则化、最大最小归一化、绝对值标准化
适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布。:是一种中心化方法,会改变原有数据得分布结构。:能最大限度地保留数据集中的异常(离群点):应用广泛,能较好的保持原有数据分布结构。:.对异常值(离群值)的存在非常敏感。:.对异常值(离群值)的存在非常敏感。:最大限度保留数据集中的异常(离群值):均值为0,方差为1的标准正态分布。:稀疏数据、稀疏CSR或CSC矩阵。:单向量上来实现这正则化的功能。:不适合用于稀疏数据的处理。:不适合用于稀疏数据的处理。:保持原有数据分布结构。原创 2023-06-15 14:59:37 · 1416 阅读 · 0 评论 -
全网最全seaborn的介绍
stripplot()方法是catplot()中 kind 的默认参数,它是用少量随机“抖动”调整分类轴上的点的位置。在 seaborn 中,最简单的方法就是使用jointplot()函数,它创建了一个多面板图形,显示了两个变量之间的二元(或联合)关系,以及每个变量在单独轴上的一元(或边际)分布。在绘制柱状图时,您的主要选择是要使用的“桶”的数量和放置它们的位置。distplot() 使用一个简单的规则来很好地猜测默认情况下正确的数字是多少,但是尝试更多或更少的“桶”可能会揭示数据中的其他特性。原创 2023-06-11 23:41:33 · 186 阅读 · 0 评论 -
numpy中的np.random.rand、np.random.randn、np.random.randint、np.random.uniform等用法
np.random.uniform(low=0.0, high=1.0, size=None):生成一个指定形状的在给定范围内均匀分布的随机数数组。np.random.random(size=None):与np.random.random_sample方法相同,生成一个指定形状的[0, 1)之间均匀分布的随机数数组。参数n指定了试验的次数,p指定了每次试验成功的概率,size指定了生成的随机数的形状。参数low和high指定了随机数的范围,size指定了生成的随机数的形状,dtype指定了数组的数据类型。原创 2023-06-10 16:47:33 · 2418 阅读 · 1 评论 -
混淆矩阵、准确率、召回率、漏报率、误报率、F1分数
比如在样本集中,正样本有90个,负样本有10个,样本是严重的不均衡。因为在二分类问题中单一样本的预测结果只有Yes or No,即:真或者假两种结果,所以全体样本的经二分类模型处理后,处理结果不外乎四种情况,每种情况都有一个专门称谓,如果用一个2行2列表格描述,得到的就是“混淆矩阵”,反映分类器或者模型正确预测负样本纯度的能力,减少将正样本预测为负样本,即正样本被预测为负样本占总的正样本的比例。反映分类器或者模型正确预测正样本纯度的能力,减少将负样本预测为正样本,即负样本被预测为正样本占总的负样本的比例。原创 2023-06-10 11:48:01 · 3056 阅读 · 1 评论 -
pandas函数 apply、iterrows、iteritems、groupyby
【代码】pandas函数 apply。原创 2023-03-23 23:54:18 · 192 阅读 · 0 评论 -
pandas数据变形 添加行和列、merge、get_dummies、sample
把多个Pandas对象(DataFrame/Series)合并成一个。使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)使用loc可以对行进行添加。append 拼接多个列表。使用[]和loc添加行。使用assign方法。原创 2023-03-21 23:42:13 · 247 阅读 · 0 评论 -
pandas学习(二)数据的引用和缺失值处理,重复值处理
isnull,isna,notna,都是用于判断是否存在NAN,在使用isnull,isna方法时,方法会对缺失值位置返回True,其他位置返回False,notna则相反。在处理缺失值过程中,需要注意NAN不能使用==进行比较,这与python中的None存在不同,在python中,None可以使用None进行比较的。在处理包含缺失值计算过程中,NAN是可以传播的,传播的意思表示只要包含一个NAN,运算结果也会是NAN。dropna是返回删除缺失值行后的结果,原创 2023-03-16 22:18:47 · 415 阅读 · 0 评论 -
numpy知识大全(一)数组基础处理
resize函数会生成新的数组,不会和生成前的数据共内存,使用numpy.resize修改形状时,前后数量不一致会继续执行,narray.resize(newshape,refcheck),当refcheck为True时,和numpy.reshape执行效果相同,在执行前后大小不一致时,会报错,当refcheck为False时,和numpy.resize执行效果相同,reshape函数生成前后的数组会公用相同的内存,在前后数据数量不一致时会报错。any和all用发相同,不在举例截图。原创 2023-03-08 20:39:01 · 126 阅读 · 0 评论 -
matplotlib学习之使用多个坐标轴
import matplotlib.pyplot as pltimport matplotlibimport numpy as npx = np.arange(-5,5)fg = plt.figure()ax = fg.add_subplot(111)ax.plot(x,x*x)ax2 = ax.twinx()#添加坐标轴ax2.plot(x,x,"r")plt.show()原创 2020-05-14 14:28:39 · 1288 阅读 · 0 评论 -
matplotlib学习之图的图例和网格
import matplotlib.pyplot as pltimport matplotlibimport numpy as npx = np.arange(1,20)plt.plot(x,x,label="df") #添加图例plt.legend()plt.grid(True) #添加网格plt.show()原创 2020-05-14 11:34:05 · 189 阅读 · 0 评论 -
matplotlib学习之figure、subplot画图
import matplotlib.pyplot as pltimport matplotlibimport numpy as npx = np.arange(1,20)fg = plt.figure()ax = fg.add_subplot(221)ax.plot(x,x)ax = fg.add_subplot(222)ax.plot(x, x*x)ax = fg.add_subplot(223)ax.plot(x,-x)ax = fg.add_subplot(224)a原创 2020-05-14 09:41:53 · 236 阅读 · 0 评论 -
matplotlib学习之箱形图plt.boxplot
import matplotlib.pyplot as pltimport matplotlibimport numpy as npnp.random.seed(100)data = np.random.normal(size=1000,loc=0,scale=1)plt.boxplot( data, sym = 'o', #异常点形状 vert = True, # 是否垂直 whis原创 2020-05-14 08:39:19 · 833 阅读 · 0 评论 -
matplotlib学习之饼状图
import matplotlib.pyplot as pltimport matplotlibx = [30,40,10,20]label = ["dfp","d","vrfe","dfv"]plt.pie(x,labels=label)plt.show()添加数字到面积上import matplotlib.pyplot as pltimport matplotlibx = [30,40,10,20]label = ["dfp","d","vrfe","dfv"]plt.p原创 2020-05-14 08:16:08 · 169 阅读 · 0 评论 -
matplotlib学习之柱状图
import numpy as npimport matplotlib.pyplot as pltx = np.arange(1,5)y = np.arange(5,9)plt.bar(x,y,width=0.4)plt.show()原创 2020-05-13 21:46:46 · 138 阅读 · 0 评论 -
matplotlib库学习之散点图
绘制散点图将采用scatter函数import numpy as npimport matplotlib.pyplot as pltx = np.random.randn(50)y = x + np.random.randn(50)*0.5plt.scatter(x,y,s=100,c="r",alpha=0.5)plt.show()上面参数中s表示点的面积,c表示颜色,alpha表示的是透明度...原创 2020-05-13 20:22:00 · 150 阅读 · 0 评论