自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 R语言时间序列分析

R语言时间序列分析、平稳性检验、转换时间序列、差分、ARMA模型、ARIMA模型、自动定阶建模auto.arima()

2023-10-19 20:32:19 479

原创 Python字符串操作(上)

目录capitalize()方法——字符串首字母转换为大写casefold()方法——所有大写字符转换为小写center()方法——字符串居中填充count()方法——统计字符串出现次数decode()方法——解码字符串encode()方法——编码字符串endswith()方法——是否以指定子字符串结尾expandtabs()方法——tab符号转为空格find()方法——字符串首次出现的索引位置format()方法——格式化字符串f-string——格式化字符串index()方法——字符串首次出现的索引位置

2023-10-19 17:46:06 137

原创 R语言统计计算函数汇总

R语言提供了大量的数据计算函数,可以实现求和、求均值、求最大值、求最小值、求中位数、求众数、求方差、标准差等等,从而使得数据统计变得简单高效。

2023-06-08 20:40:22 1057

原创 Python绘制表格

Python的Plotly模块可以实现绘制表格。Plotly是基于JavaScript的Python封装,它可以为很多编程语言提供接口。而交互式、美观、使用方便也成为了Plotly最大的优势。Plotly是一个单独的绘图库,与Matplotlib绘图库、Seaborn绘图库并没有什么关系,它有自己独特的绘图语法、绘图参数和绘图原理,与Python中Matplotlib、NumPy、和Pandas等库可以做到无缝连接。Plotly支持绘制表格,而且绘图效果非常美观。

2023-06-07 21:31:32 3155 1

原创 ggpolt2绘制7种不同的柱形图简单又实用

绘制分组柱形图同样使用geom_col()函数,重点是指定fill参数为分类数据,fill表示填充,也就是将分类数据映射到填充的颜色当中,这样就形成了一个堆积效果的柱形图(默认为纵向堆积),由于分组柱形图是多根柱子横向堆积的,因此还需要指定position参数为“dodge”。ggplot2默认绘图颜色是黑色(如图1所示),那么,通常可以使用color参数设置想要的颜色,例如color="blue",但是柱形图有所不同,color参数只会设置边框的颜色,而设置柱子颜色需要使用fill参数。

2023-06-06 15:54:39 942

原创 Pandas对于大型(上G)数据集的几种读取方式

在一个CSV文件中往往存在很多列数据,但并不是所有的列都是我们需要的,此时如果将所有的列都读取出来,无疑会减慢数据读取速度。)竞赛平台上寻找一些数据集来练习,但是发现部分数据集是几G甚至几十G的,如图1所示。当刚刚得到一个很大的CSV文件时,迫切想了解数据的情况,此时推荐使用DataFrame对象的head()方法和tail()方法,先查看前5行数据和最后5行数据。说明:head()方法和tail()方法默认是查看5行数据,如果想查看更多的数据可以指定行数,如head(20),查看前20行数据。

2023-05-27 21:22:06 540

原创 史上最全的RStudio使用快捷键

(10)最大化窗口:Ctrl+Shift+数字(如Ctrl+Shift+1),恢复窗口Ctrl+Alt+Shift+0。(11)最大化环境管理窗口中的Connections(连接):Ctrl+Shift+F5。(8)环境管理窗口的Environment(环境):Ctrl+8。(7)资源管理窗口的Packages(包):Ctrl+7。(9)资源管理窗口的Viewer(查看):Ctrl+9。(3)资源管理窗口的Help(帮助):Ctrl+3。(5)资源管理窗口的File(文件):Ctrl+5。

2023-05-27 20:21:21 3036

原创 数据处理与清洗

并不是所有的数据都符合数据分析、数据挖掘的要求,还需要经过一些处理,因为数据的质量将直接影响数据分析或者算法模型的结果。下面主要介绍一些最基本的数据处理,包括查看数据概况、数据清洗、字符串处理、数据合并与拆分以及数据转换与重塑。

2023-05-21 13:39:50 58

原创 R语言日期处理与时间序列

日期和时间格式的转换、提取日期和时间中的年、月、日、时、分钟和秒、按时间统计、更改时间周期、生成日期时间序列、lubridate包、时间序列包zoo和时间序列包xts

2023-05-18 21:05:43 449

原创 R语言导入Excel/CSV/SPSS/MySQL数据库/XML等类型数据

R提供了导入各种数据集的函数,支持大多数的数据分析软件提供的文件和数据库文件,如文本文件、Excel文件、数据库中的数据、XML数据、SPSS数据、SAS数据等等,如图1所示。下面对一些常用的数据集进行介绍。

2023-04-06 17:01:18 696

原创 R语言获取数据——手工输入数据

在R语言中获取数据集的方法有多种,例如读取Excel文件、数据库中的文件,而当我们没有这些渠道能够获取到数据集时,也可以手工输入数据,即通过键盘输入数据,它是获取数据集的最简单方法。另外,还可以在代码中直接输入数据,下面分别进行介绍。

2023-04-06 15:50:29 1000

原创 R语言中的循环语句和跳转语句

日常生活中很多问题都无法一次解决,如盖楼,所有高楼都是一层一层垒起来的。再或者有些事物必须周而复始地运转才能保证其存在的意义,例如,公交车、地铁等交通工具必须每天在同样的时间往返于始发站和终点站之间。类似这样的反复做同一件事的情况,称为循环。在R语言中循环语句主要有4种类型,下面将对这4种类型的循环语句分别进行介绍。

2023-04-05 18:13:45 278

原创 R语言的if语句

R语言中最简单的选择语句是使用if保留字组成的选择语句,语法格式如下:if(表达式) {语句块}其中,括号中的表达式可以是一个单纯的布尔值或变量,也可以是比较表达式或逻辑表达式(例如,a > b and a!= c),如果表达式为真(TRUE),则执行“语句块”;如果表达式的值为假(FALSE),就跳过“语句块”,继续执行后面的语句,这种形式的if语句相当于汉语里的“如果……就……”,其流程图如图1所示。下面通过一个具体的实例介绍if语句,判断一个数,除以三余二,除以五余三,除以七剩二。

2023-04-05 16:56:04 1022

原创 R语言中的列表

列表是R语言数据结构中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。列表允许整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵或数据框,甚至其他列表的组合。列表具有以下特点:(1)列表是可以包含多个不同数据元素的数据对象。(2)可以包含向量、矩阵、数据框,甚至是列表。(3)列表的各个元素称为列表项,列表项的数据类型可以不同,长度可以不同。下面介绍如何创建列表和列表的索引。

2023-04-05 10:51:28 130

原创 R语言中的因子

因子在R语言中用于处理分类变量,其命名来源于统计学中的名义变量。例如糖尿病的类型、性别、学历和民族等。下面介绍如何创建因子和改变因子水平。

2023-04-05 10:48:24 198

原创 R语言数据框的详细介绍与应用

数据框也是R语言中的一种数据结构,它比矩阵应用更为广泛,包括行/列数据,可以有多种数据类型,如图1所示。下面介绍如何创建数据框、获取数据框信息、获取数据框中的数据、数据框数据的增加、删除、修改和查询以及数据框查询等。

2023-04-05 10:38:45 168

原创 R语言中的数组

数组主要用于存储多维数据,可分为一维数组、二维数组、三维数组和多维数组,一般三维以上的数组称之为多维数组。下面介绍创建数组、数组索引和数组的修改。

2023-04-04 18:03:58 107

原创 R语言中的矩阵

矩阵是将数据按行和列组织数据的一种数据结构,相当于二维数组,如图1所示。与向量类似,矩阵的每个元素都拥有相同的数据类型。通常用列来表示来自不同变量的数据,用行来表示相同的数据。在R语言中矩阵在数据统计分析过程中尤为重要,尤其矩阵运算是多元统计的核心,而主成分分析、因子分析和聚类分析页也离不开矩阵变换与运算。下面主要介绍如何创建矩阵、矩阵索引、矩阵运算、线性代数运算和矩阵统计计算

2023-04-04 10:58:35 232

原创 R语言中向量的详细介绍

向量是R语言中最简单、最重要的一种数据结构,是构成其他数据结构的基础。在R语言中的向量概念与数学中向量是不同的,类似于数学上的集合的概念,由一个或多个元素所构成。向量是由一系列同一种数据类型的有序的元素构成的一组数据,例如图1所示,这里我们可以理解为数组。下面将主要介绍如何创建向量、向量索引、向量的操作、向量运算和向量排序。

2023-04-04 09:35:40 176

原创 R语言中的帮助

学会使用帮助文档不仅可以提高学习效率、缩短学习路径,还可以解决日常编程中遇到的问题。R语言提供了大量的帮助,下面介绍如何使用R中的帮助。

2023-04-04 07:51:53 947

原创 R包的安装与使用

R语言的包是R函数、编译代码和样本数据的集合。它们存储在R安装目录下的一个名为“library”文件夹中,例如图1所示。默认情况下,R语言自带了一些包,如base、boot、class等等。library()运行程序,结果如图2所示。如果需要一些特殊功能的包(即扩展包)可以通过下载安装后使用。下面介绍如何安装包、载入包和使用包。

2023-04-04 07:43:44 1205

原创 R语言的字符串

几乎所有的程序都离不开字符串,例如姓名、性别(男或女)、商品名称、类别等等,因此在程序开发过程中就避免不了对字符串进行操作处理,常用的如拼接字符串、计算字符串长度、截取字符串、字符串拆分等等。

2023-04-03 17:56:06 494

原创 R语言的函数

我们可以把实现某一功能的代码定义为一个函数,然后在需要使用时,随时调用即可,十分方便。对于函数,简单地理解就是可以执行某项工作的代码块,有点类似积木块,可以反复地使用。在R语言中包括大量的内置函数,可以在程序中直接调用。当然,也可以自己创建和使用函数,这种称为自定义函数。

2023-04-03 17:24:33 53

原创 R语言的运算符

运算符是一些特殊的符号,主要用于数学计算、比较大小和逻辑运算等。R语言中的运算符主要包括算术运算符、关系(比较)运算符、逻辑运算符、赋值符号。在R语言中,运算符主要用于向量运算,下面将对一些常用的运算符进行介绍。

2023-04-03 17:14:16 314

原创 R语言基本数据类型

R语言的基本数据类型可分为数值型(numeric)、字符型(character)、逻辑型(logical)等

2023-04-03 16:24:12 62

原创 R语言变量

R语言变量。值可以改变的量称之为“变量”,每一个变量都有一个名字,例如a。在R中,不需要先声明变量名及其类型,直接赋值即可创建各种类型的变量。

2023-04-03 12:25:42 463

原创 R语言常用保留字

语言中已经被赋予特定意义的一些单词,开发程序时,不可以把这些保留字作为变量、函数、类、模块和其他对象的名称来使用。上述表中有几个比较特殊的保留字,是数据处理过程中经常遇到的保留字。下面来简单了解一下它们的含义。(3)NaN:表示非数值,即不是一个数,是“Not a Number”的缩写。(1)NA:表示缺失值,是“Not Available”的缩写。(2)Inf:表示无穷大,是“Infinite”的缩写。(4)NULL:表示空值。语言中的常用保留字如表。

2023-04-03 12:15:37 283

原创 RStudio集成开发环境的详细介绍

RStudio集成开发环境、RStudio编辑窗口、RStudio菜单栏、RStudio特色功能、RStudio常用的快捷键

2023-04-03 12:08:37 1858

原创 下载与安装RStudio

下载RStudio、安装RStudio,在RStudio集成开发环境中编写人生中第一个R程序

2023-04-03 11:47:16 466

原创 R的下载与安装

R语言是一门数据统计语言,在数据处理等方面具有很大的优势。在如今的开发语言排行榜中,我们惊喜的看到R语言正得到越来越多人的关注,下面介绍在Windows系统中如何下载R和安装R。

2023-04-03 11:01:52 550

原创 Pandas从简单爬虫到数据分析

Pandas爬取分析NBA球员薪资数据,主要使用了Pandas模块和Matplotlib模块,爬取数据前首先确定网页格式,然后爬取数据,接下来对爬取的数据进行简单的清洗,最后绘制水平柱形图分析NBA湖人队薪资状况。

2023-04-03 09:04:23 117

原创 集成开发环境PyCharm

PyCharm是由Jetbrains公司开发的Python集成开发环境,是专门开发Python程序的商业集成开发环境,由于其具有智能代码编辑器,从而实现了自动代码格式化、代码完成、智能提示、重构、单元测试、自动导入和一键代码导航等功能,目前已成为Python专业开发人员和初学者使用的有力工具。下面介绍PyCharm工具的使用方法。

2023-03-24 19:27:32 404

原创 搭建Python开发环境

IDLE全称Integrated Development and Learning Environment(集成开发和学习环境),它是Python的集成开发环境。2、安装Python第1步:查看计算机操作系统的位数现在很多软件,尤其是编程工具,为了提高开发效率,分别对32位操作系统和64位操作系统做了优化,推出了不同的开发工具包。Python也不例外,所以安装Python前,需要了解计算机操作系统的位数。在桌面找到“此电脑”图标(由于笔者使用的Windows 10系统,而Windows 7为“计算机”)

2022-12-05 19:11:09 144

原创 Python概述

下面简单了解一下什么是Python以及Python的版本。

2022-12-05 18:45:51 256

原创 数据分析常用工具

工欲善其事,必先利其器,选择合适的数据分析工具尤为重要。下面介绍两款常用的数据分析工具,Excel工具和Python语言。

2022-12-05 18:30:13 2206

原创 数据分析的基本流程

Python数据分析的基本流程,其中数据分析的重要环节是明确分析目的,这也是做数据分析最有价值的部分。

2022-12-05 18:27:34 247

原创 什么是数据分析

什么是数据分析

2022-12-05 18:21:28 227

原创 Python为输出的数据绘制表格

通过Python的Texttable模块为数据添加表格框线

2022-11-01 17:54:22 3425

原创 Jupyter Notebook使用技巧

Jupyter notebook 设置工作空间。Jupyter Notebook工作空间默认路径的修改方法。自动代码补全。Jupyter Notebook的快捷键

2022-11-01 14:24:57 415

原创 Python批量处理Excel办公自动化

Python批量处理Excel文件。xlwings模块是一个可以实现从Excel调用Python,也可以在Python中调用Excel的库。它是开源免费的,而且在不断的更新。xlwings模块支持.xls文件的读取、支持.xlsx文件的读取与写入、支持Excel操作、支持VBA,其强大的转换器可以处理大部分数据类型,包括numpy数组和Pandas的DataFrame数据类型。

2022-11-01 14:01:00 542

Python数据分析三剑客源码大全【Numpy+Pandas+Matplotlib】

Python数据分析必备三剑客示例源码大全,包括3大模块 1、Numpy模块 2、Pandas模块 3、Matplotlib模块

2023-04-07

Python Pandas模块106个示例源码

Python Pandas模块106个示例源码

2023-04-04

Python Pandas模块106个示例源码

Python Pandas模块106个示例源码

2023-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除