- 博客(96)
- 收藏
- 关注
原创 【R语言】读取CSV数据时,显示[1] PK...<0 行> (或0-长度的row.names)
当使用以下代码读取CSV数据后,发现使用head(data)显示[1] PK...<0 行> (或0-长度的row.names),如下截图所示。
2025-02-23 23:13:14
316
原创 【R语言】绘图
散点图也叫X-Y图,它将所有的数据以点的形式展现在坐标系上,用来显示变量之间的相互影响程度。ggplot2包中用来绘制散点图的函数是geom_point(),但在绘制前需要先用ggplot()函数指定数据集和变量。
2025-02-19 23:53:01
564
原创 【R语言】主成分分析与因子分析
主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,广泛应用于统计学、数据科学和机器学习等领域。它通过线性变换将原始数据投影到一个新的坐标系,使得新坐标系中的第一个坐标轴(主成分1)上的方差最大,第二个坐标轴(主成分2)上的方差次大,并且各个坐标轴之间相互正交(即不相关)。PCA 的目标是通过保留数据的主要变异方向来减少数据的维度,同时尽可能少地丢失信息。
2025-02-18 22:15:06
446
原创 【R语言】聚类分析
聚类分析是一种常用的无监督学习方法,是将所观测的事物或者指标进行分类的一种统计分析方法,其目的是通过辨认在某些特征上相似的事物,并将它们分成各种类别。R语言提供了多种聚类分析的方法和包。
2025-02-17 22:49:36
615
原创 【R语言】回归分析与判别分析
lm()函数是用于拟合线性模型(Linear Models)的主要函数。线性模型是一种统计方法,用于描述一个或多个自变量(预测变量、解释变量)与因变量(响应变量)之间的关系。它可以处理简单的线性回归、多元线性回归以及带有分类预测变量的回归(通过创建虚拟变量或指示变量)。
2025-02-15 23:48:10
713
原创 【R语言】非参数检验
在R语言中,Mann-Whitney U检验(也称为Wilcoxon秩和检验)用于比较两个独立样本的中位数是否存在显著差异。它是一种非参数检验,适用于数据不满足正态分布假设的情况。
2025-02-15 23:35:14
746
原创 【R语言】方差分析
在R语言以及更广泛的统计学领域中,方差分析(ANOVA,即Analysis of Variance)是一种用于比较两个或更多组数据的均值是否存在显著差异的统计方法。可以使用aov()函数或其他相关函数(如anova())来执行方差分析.下面是方差分析中的一些基本术语定义:
2025-02-13 23:22:51
622
原创 【R语言】t检验
t检验(t-test)是用于比较两个样本均值是否存在显著差异的一种统计方法。单样本t检验(One-Sample t-Test)用于比较一个样本的均值与已知的总体均值是否存在显著差异。独立样本t检验(Independent Two-Sample t-Test)用于比较两个独立样本的均值是否存在显著差异。在t检验中,原假设(null hypothesis,通常表示为H0)和备择假设(alternative hypothesis,通常表示为H1)是根据研究目的和所要检验的具体问题来设定的。
2025-02-11 23:46:44
706
原创 【R语言】相关系数
cor()函数是R语言中用于计算相关系数的函数,相关系数用于衡量两个变量之间的线性关系强度和方向。常见的相关系数有皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼秩相关系数(Spearman's rank correlation coefficient)和肯德尔等级相关系数(Kendall's tau correlation coefficient)。
2025-02-09 23:59:50
1231
原创 【R语言】卡方检验
卡方检验是用来检验样本观测次数与理论或总体次数之间差异性的推断性统计方法,其原理是比较观测值与理论值之间的差异。两者之间的差异越小,检验的结果越不容易达到显著水平;反之,检验结果越可能达到显著水平。
2025-02-09 00:04:42
770
原创 【R语言】数据分析
众数(mode)是指在一组数据中出现频率最高的值。尽管R语言本身没有直接提供计算众数的内置函数,但可以使用其他函数和方法来计算众数。
2025-02-08 15:55:48
624
原创 【R语言】plyr包和dplyr包
plyr扩展包主要是实现数据处理中的“分割-应用-组合”(split-apply-combine)策略。此策略是指将一个问题分割成更容易操作的部分,再对每一部分进行独立的操作,最后将各部分的操作结果组合起来。plyr 包虽然功能强大,但在处理大数据集时可能会比较慢。对于更高效的数据处理,可以考虑使用 dplyr 包,它是 plyr 的一个现代替代品,提供了更快的速度和更直观的语法。
2025-02-07 14:10:40
638
原创 【R语言】apply函数族
在R语言中使用循环操作时是使用自身来实现的,效率较低。所以R语言有一个符合其统计语言出身的特点:向量化。R语言中的向量化运用了底层的C语言,而C语言的效率比高层的R语言的效率高。apply函数族主要是为了解决数据向量化运算的问题,以提高运行效率。
2025-02-06 17:58:46
513
原创 【R语言】数据重塑
R语言中,数据重塑(Data Reshaping)是指改变数据框(data frame)或类似结构(如矩阵、列表等)的形状,以适应不同的分析或可视化需求。这通常涉及行和列的重新排列、数据的汇总或拆分等操作。数据重塑是数据预处理中的一个重要步骤,特别是在数据分析和机器学习项目中,因为不同的算法和可视化工具对数据格式有不同的要求。R语言中有几个常用的包和函数来进行数据重塑,其中最著名的是reshape2包和tidyr包。reshape2包提供了一系列函数来处理宽格式(wide format)数据和长格式(l
2025-02-06 17:41:03
1213
原创 【R语言】写入数据
R语言自带.RData和.rds两种数据格式。通过使用save()函数和saveRDS()函数将R语言数据处理结果保存为此类数据。
2025-02-05 16:21:31
627
原创 【R语言】获取数据
R语言自带2种数据存储格式:*.RData和*.rds。这两者的区别是:前者既可以存储数据,也可以存储当前工作空间中的所有变量,属于非标准化存储;后者仅用于存储单个R对象,且存储时可以创建标准化档案,属于标准化存储。
2025-02-04 16:43:57
1370
原创 【R语言】环境空间
R语言中有5种环境:全局环境:也叫用户环境,指在当前用户下R程序运行的环境空间。内部环境:通过“new.env()”命令创建的环境空间,也可以是匿名的环境空间。父环境:当前环境空间所处的上一层环境。空环境:也叫顶层环境,指没有父环境的环境空间。包环境:指R包封装的环境空间。
2025-02-03 22:52:33
1308
原创 【R语言】R语言安装包的相关操作
两者的区别:如果在library目录下存在该R包,运行library()函数时会返回已加载的R包的名称,否则系统会抛出异常并停止运行;而运行require()函数时,系统会根据R包是否存在相应地返回TRUE或FALSE,此时程序会继续执行。因此,前者能快速找出R脚本存在的问题,而后者则不会报错。
2025-02-03 17:20:53
480
原创 【R语言】函数
一、函数格式如下所示:hello:函数名;function:定义的R对象是函数而不是其它变量;():函数的输入参数,可以为空,也可以包含参数;{}:函数体,如果函数体只有一行,可以省略{}。
2025-01-24 23:48:50
1755
原创 【Linux】gawk编辑器二
gawk使用内建变量来引用一些特殊的功能。字段和记录分隔符变量数据字段变量此变量允许使用美元符号($)和字段在记录中的位置值来引用对应的字段。要引用记录中的第一个数据字段,就用变量$1,要引用第二个数据字段,就用变量$2,以此类推。数据字段由字段分隔符划定。默认情况下,字段分隔符是一个空白字符:空格或制表符。可以通过使用命令行选项-F,或者使用特殊的内建变量FS修改字段分隔符。
2025-01-16 23:51:32
566
原创 【Linux】sed编辑器二
sed编辑器有3种可用于处理多行文本的特殊命令。N:加入数据流中的下一行,创建一个多行组进行处理;D:删除多行组中的一行;P:打印多行组中的一行。
2025-01-12 23:50:15
1097
原创 【Linux】正则表达式
正则表达式是一种可供Linux工具过滤文本的自定义模板,Linux工具(如sed、gawk)会在读取数据时使用正则表达式对数据进行模式匹配。正则表达式使用元字符来描述数据流中的一个或多个字符。它是由正则表达式引擎实现的。正则表达式引擎是一种底层软件,负责解释正则表达式并用这些模式进行文本匹配。
2025-01-11 21:53:41
709
原创 【Linux】gawk编辑器一
在gawk编程语言中,可以实现以下操作:定义变量来保存数据;使用算术和字符串运算符来处理数据;使用结构化编程语法(如:if-then语句和循环)为数据处理添加处理的逻辑;提取文件中的数据将其重新排列组合,最后生成格式化报告。gawk的报告生成能力多用于从大文本文件中提取数据并将其格式化为可读性报告,最完美的应用案例就是格式化日志文件,gawk能从日志文件中过滤出所需的数据,并将其格式化,以便于阅读。
2025-01-08 00:02:01
503
原创 【Linux】sed编辑器一
sed编辑器也叫流编辑器(stream editor),它是根据事先设计好得一组规则编辑数据流。交互式文本编辑器(如Vim)中,可以用键盘命令交互式地插入、删除或替换文本数据。sed编辑器匹配并针对一行数据执行所有命令后,就会读取下一行数据并重复这个过程,在它处理完数据流中的所有行后,就结束运行。由于命令是按顺序逐行执行的,因此sed编辑器只需对数据流处理一遍(one pass through)即可完成编辑操作。这使得sed编辑器比交互式编辑器快得多,还可以快速完成对数据的自动修改。
2025-01-06 23:44:53
501
原创 【Linux】函数
bash shell会使用return命令以特定的退出状态码退出函数;return命令允许指定一个整数值作为函数的退出状态码。
2025-01-05 16:03:56
616
原创 【Linux】定时运行shell脚本
但如果某个作业在cron时间表中设置的运行时间已到,且此时Linux系统处于关闭状态,那么该作业就不会运行。默认情况下,atd守护进程会每隔60秒检查一次此目录,如果目录下有作业,atd守护进程就会查看此作业的运行时间,若时间跟当前时间一致,就运行此作业。cron在后台运行,并且会检查一个特殊的表,即cron时间表,从中获取已安排执行的作业。如下所示,atq命令列出了作业号,系统运行该作业的日期和时间,该作业所在的作业队列及用户账户名。作业队列的字母排序越高,此队列中的作业运行优先级就越低(谦让度更大)。
2025-01-04 23:59:29
1294
1
原创 【Linux】调度优先级(谦让度)
多任务操作系统Linux中,内核负责给每个运行的进程分配CPU时间。调度优先级(或叫谦让度nice value)是指内核为进程分配的CPU时间(相对于其它进程)。在Linux系统中,由shell启动的所有进程的调度优先级默认都是相同的。调度优先级是整数值,取值范围从-20(最高优先级)到+19(最低优先级)。默认情况下,bash shell都是以优先级0来启动所有进程。
2025-01-04 18:00:49
318
原创 【Python】闭包
闭包(Closure)是指一个函数记住了并可以访问它的词法作用域(lexical scope),即使这个函数在词法作用域之外执行。闭包其实就是延伸了作用域的函数,包括被延伸函数主体中引用的非全局变量和局部变量。这些变量必须来自包含被延伸函数的外部函数的局部作用域。函数是不是匿名的没有关系,关键是它能访问主体之外定义的非全局变量。
2025-01-03 00:02:49
374
原创 【Linux】信号处理
Ctrl+C生成的是SIGINT信号,它会将其发送给当前在shell中运行的所有进程。Ctrl+Z生成的是SIGTSTP信号,停止shell中运行的任何进程。trap命令可以让shell脚本需要侦测并拦截的Linux信号,如果脚本收到了trap命令中列出的信号,则该信号不再由shell处理,而是由本地处理。停止(stopping)进程和终止(terminating)进程不同,前者是让程序继续驻留在内存中,但依然能从上次停止的位置继续运行。
2025-01-01 23:34:58
523
原创 【Linux】数据呈现
Linux系统会将每个对象都当做文件来处理,包括输入和输出。它用文件描述符来标识每个文件对象。文件描述符是一个非负整数,唯一会标识的是会话中打开的文件。
2024-12-23 23:47:19
226
原创 【Linux】处理用户输入
向shell脚本传递数据的最基本方法就是通过命令行参数。如下,这条命令会向test.sh脚本传递10和20这两个参数。
2024-12-21 23:42:54
358
原创 【Linux】结构化命令:until命令
until命令与while命令相反,它要求指定一个返回非0退出状态码的测试命令。只要测试命令的退出状态码不为0,bash shell就会执行循环中列出的命令;一旦测试命令返回了退出状态码0,循环结束。
2024-12-19 23:41:21
350
原创 【Linux】结构化命令:while命令
while命令定义了一个要测试的命令,只要该命令的退出状态码为0,就循环执行一组命令;反之,退出状态码不为0,则停止循环。
2024-12-18 23:52:49
219
空空如也
LoRa无线通信问题
2024-09-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人