数据分析及可视化
文章平均质量分 93
数据分析及可视化
小嗷犬
CSDN人工智能领域优质创作者,阿里云专家博主。
展开
-
Pandas 并行计算:Pandarallel 的使用
是一个 Python 库,设计用于简化并行处理在 Pandas DataFrame 上的操作,特别针对那些原本串行执行的applymap和applymap等方法。它通过利用多核 CPU 的优势,在本地环境中实现并行计算,从而显著提高数据处理速度。简单易用Pandarallel 无需用户显式管理进程或线程,只需在代码开始处初始化一次,之后就可以直接使用类似 Pandas 的接口进行并行化操作。在初始化时,可以指定参数如来显示进度条,或者调整nb_workers参数以设置使用的 CPU 核心数量。原创 2024-01-30 17:23:19 · 1811 阅读 · 0 评论 -
机器学习 流形数据降维:UMAP 降维算法
UMAP(Uniform Manifold Approximation and Projection)是一种先进的非线性降维技术,用于将高维数据集转换为低维空间中的表示,同时尽可能保留原始数据的复杂结构和拓扑特性。它特别适用于可视化分析和机器学习领域的预处理步骤。原创 2024-01-30 17:23:08 · 2784 阅读 · 1 评论 -
数据科学竞赛平台推荐
Kaggle,成立于 2010 年,于 2017 年 3 月被谷歌收购,目前已是全球最大、最权威的数据科学竞赛平台。Kaggle 以数据科学竞赛为主,同时也提供了 Datasets、Code、Discussions、Learn 等功能。Kaggle 为初学者提供了很多学习资源,同时也设置了很多入门级别的练习赛,如经典的泰坦尼克号生还预测、波士顿房价预测、手写数字识别等,可以帮助初学者快速入门。Kaggle 上的竞赛往往有很高的奖金,吸引了全球的数据科学家参与其中,竞赛的难度也很大,往往需原创 2024-01-12 20:59:14 · 1437 阅读 · 2 评论 -
机器学习 高维数据可视化:t-SNE 降维算法
t-SNE 的全称为 t-Distributed Stochastic Neighbor Embedding,是一种非线性降维算法,它可以将高维数据映射到低维空间,同时保持数据间的相对距离不变。t-SNE 通常用于可视化高维数据,它可以将高维数据映射到二维或三维空间,从而可以通过图形的方式展示数据的特征。相比于 PCA 等线性降维算法,t-SNE 能够更好地保留数据的局部结构,因此在可视化高维数据时,t-SNE 通常能够展示出更好的效果。原创 2023-12-16 23:49:46 · 2541 阅读 · 3 评论 -
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析,特征类别、缺失率、类别分布、个数分布、建模意见原创 2023-10-16 22:24:09 · 1323 阅读 · 8 评论 -
Python 数据可视化:Seaborn 库的使用
Seaborn是一个基于 Python 的数据可视化库,它建立在 matplotlib 之上,并与 pandas 数据结构密切集成。Seaborn 的主要目的是通过使用更高级的界面来制作有吸引力的统计图形,从而使可视化变得更简单。Seaborn 提供了更高级的界面来绘制有吸引力的统计图形,例如散点图、条形图、箱线图等。这些图形可以通过几行代码快速生成,而不需要手动调整每个细节。Seaborn 包括几个预定义的主题,可以用于改变图形的外观。这使得它更容易创建美观且专业的图形。原创 2023-09-15 00:14:58 · 1728 阅读 · 1 评论 -
Python 数据处理:Pandas库的使用
最重要的一个功能是,它可以对不同索引的对象进行算术运算。在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集。是一种类似于一维数组的对象,它由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。每个索引都有一些方法和属性,它们可用于设置逻辑并回答有关该索引所包含的数据的常见问题。看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。跟对应的 NumPy 数组方法相比,它们都是基于没有缺失数据的假设而构建的。对于带有重复值的索引,数据选取的行为将会有些不同。原创 2022-09-16 13:28:51 · 587 阅读 · 1 评论 -
Python Matplotlib库:统计图补充
上两期我们讲了 Matplotlib 库的基本语法和基本绘图展示。这期我们来说说如何用 Matplotlib 库绘制常用统计图。用hist()方法来绘制直方图。用boxplot()方法来绘制箱线图。用errorbar()方法来绘制误差条图。用violinplot()方法来绘制小提琴图。用eventplot()方法来绘制尖峰栅格图。用hist2d()方法来绘制二维直方图/散点密度图。用hexbin()方法来绘制Hexbin散点图。用pie()方法来绘制扇形图。原创 2022-09-11 23:38:12 · 1193 阅读 · 4 评论 -
Python Matplotlib库:基本绘图补充
上期我们讲了 Matplotlib 库的基本语法,并以折线图为例,绘制了我们的第一幅图表。这期我们来说说如何用 Matplotlib 库绘制其他常用图表。plot()是 Matplotlib 库中绘制折线图的方法,而绘制散点图,我们会使用scatter()。在 Matplotlib 库中,我们使用bar()方法来绘制柱状图。使用stem()方法来绘制火柴图。使用step()方法来绘制阶梯图。使用fill_between()方法来填充一段区间。原创 2022-09-10 23:36:07 · 1013 阅读 · 2 评论 -
Python 数据可视化:Matplotlib库的使用
Matplotlib是一个第三方python 2D绘图库,利用它可以画出许多高质量的图像。只需几行代码即可生成直方图,条形图,饼图,散点图等。Matplotlib库的名字来源于MATLAB,模仿MATLAB构建,语法也十分相似。原创 2022-09-06 16:17:36 · 2067 阅读 · 3 评论 -
Python 数据处理:NumPy库的使用
Python 数据处理:NumPy库。简介。ndarray,创建,数据类型,运算,索引,切片,切片索引,布尔型索引,花式索引,转置与轴对换。通用函数,指定输出,聚合,外积。数据处理,将条件逻辑表述为数组运算,数学和统计方法,用于布尔型数组的方法,排序,唯一化与集合逻辑。文件输入输出。线性代数。伪随机数生成。数组重塑,C和Fortran顺序,数组的拆分与合并,元素的重复:tile、repeat。广播,广播规则,通过广播设置数组的值。.........原创 2022-08-26 21:33:00 · 1424 阅读 · 1 评论 -
Python 词云图:wordcloud库的使用
Python 词云图:wordcloud库。安装,使用,常用函数方法,配置对象参数,蒙版,配色集。水浒传词云图代码实例。原创 2022-08-27 21:59:58 · 9047 阅读 · 2 评论 -
Python 中文分词:jieba库的使用
Python基础入门jieba库的使用。如何安装,常用函数方法。老人与海、水浒传词频统计案例。原创 2022-08-23 18:22:04 · 1752 阅读 · 3 评论