数据分析
文章平均质量分 56
scp_2032
这个作者很懒,什么都没留下…
展开
-
r学习笔记--散点图
目录绘制基本散点图设定点形、颜色属性使用不同于默认设置的点形添加回归模型拟合线添加模型系数添加标签绘制气泡图library(ggplot2)绘制基本散点图运行geom_point()函数,指定x,y映射变量。library(gcookbook)#heightweight[,c('ageYear','heightIn')]ggplot(heightweight,aes(x=ageYear,y=heightIn))+geom_point()设定点形、颜色属性将分组变量映射给shape,col原创 2021-09-04 16:23:55 · 831 阅读 · 0 评论 -
绘制条形图
目录绘制简单条形图绘制簇状条形图绘制频数条形图条形图着色对正负条形图分别着色调整条形宽度和条形间距添加数据标签绘制Cleveland点图绘制简单条形图使用ggplot()函数和geom_bar(stat=‘identity’)可以绘制上述条形图library(gcookbook)#载入数据ggplot(pg_mean,aes(x=group,y=weight))+geom_bar(stat='identity')对于连续性变量,可以使用factor()函数转化成离散型变量BOD#没有Tim原创 2021-08-19 17:12:18 · 550 阅读 · 0 评论 -
R学习笔记--读写文件
读写CSV文件由于read.*函数表现不是很稳定,readr包也是一个很好的选择读取CSV文件persons<- readr::read_csv('data/persons.csv')#由于read_csv与内置的read.csv()容易混淆,所以使用readr::read_csv。写入CSV文件readr::read_csv('data/some_data.csv',na='-')#na指缺失值,同时日期也作为日期对象导入读写excel文件读取excel文件没有内置的函数,但是原创 2021-06-19 10:14:20 · 167 阅读 · 0 评论 -
R学习笔记--apply函数族
文章目录lapply()函数sapply()函数vapply()函数mapply()函数apply()函数lapply()函数此函数可以将函数应用到向量(包括列表)中的每个元素,再将结果以列表的形式返回。## for examplea1 <- c(3,4,5)lapply(a1,function(s){s+1})结果会返回一个4、5、6的列表sapply()函数此函数的作用与lapply相同,不同点在于会自动匹配合适的结果结构,并不单纯输出为列表,## for example原创 2021-06-19 08:57:37 · 257 阅读 · 0 评论 -
Linux学习笔记--管道符、重定向
文章目录输入输出重定向管道命令符命令行的通配符以及转义字符输入输出重定向输出并不是一定要输出到屏幕上,通过输出重定向符可以输出到指定的文件中。表一、输出重定向用到的符号及其作用符号作用命令 > 文件将标准输出重定向到一个文件中(清空原有文件的数据)命令 2> 文件将错误输出重定向到一个文件中(清空原有文件的数据)命令 >> 文件将标准输出重定向到一个文件中(追加到原有内容的后面)命令 2>> 文件将错误输出重定向到一个原创 2021-06-17 21:29:31 · 305 阅读 · 0 评论 -
Linux系统学习笔记--shell命令
目录系统命令帮助命令关机重启命令命令行输出命令Linux中的任务管理器文件目录命令查看文件内容修改文件内容查找文件内容文件操作命令创建空白文件创建空白目录复制文件剪切文件或者重命名删除文件关键词查找文件关键词查找文件系统命令帮助命令查看帮助信息有两种方式一种是man 命令, 例如man echo另外一种是命令 -?,例如echo -?这两种方法都可以输出帮助文献,帮助查看命令有哪些参数以及用法。关机重启命令reboot命令用于重启系统,poweroff命令用于关闭系统,但是两者都需要管理员权原创 2021-06-16 22:54:32 · 488 阅读 · 0 评论 -
R 提取数据子集
取向量子集内置数据集islands是一个包含48个元素的向量可以使用单方括号提取子集作用实例返回所有数据islands[]提取对应位置的元素islands[c(8,1,1,42)]排除指定元素islands[-(3:46)]逻辑值提取元素islands[islands<20]提取名称匹配的元素islands[c(‘Madagacar’,'Cuba)]提取dataframe的子集使用内置数据集iris进行说明提取某几行iris[1:原创 2021-03-17 16:12:46 · 346 阅读 · 0 评论 -
R矩阵的索引和命名
创建第一个矩阵matrix()函数可以直接创建指定大小的矩阵,有四个参数可以指定date:放进矩阵的值nclo:矩阵的列数nrow:矩阵的行数byrow:TRUE为行优先填充,默认为FALSE,列优先填充first.matrix<- matrix(1:12,ncol=4,byrow=TRUE)first.matrix将向量组合成矩阵rbind()函数可以把多个向量合成为一个矩阵arry.1<-c(12,4,5,6,9,3)arry.2<-c(5,4,2,4,12原创 2021-03-17 16:11:58 · 3380 阅读 · 0 评论 -
match和%in%查找匹配
首先创建示例数据all.states<-as.data.frame(state.x77)all.states$Name<-rownames(state.x77)rownames(all.states)<-NULL#将内置数据集由数组转为数据框,然后添加州名为一列,移除行名称cold.states<-all.states[all.states$Frost>150,c('Name','Frost')]#提取包含年冰冻在150天以上的州large.states<-原创 2021-03-17 16:10:41 · 213 阅读 · 0 评论 -
将文件名输出为列表,匹配差项
#将文件名输出为列表,匹配差项import osimport sysimport pandas as pdimport repath=(r'C:\Users\jxu\Desktop\新建文件夹 (2)\新建文件夹\华东项目')f=os.listdir(path)#列表形式list=[]for i in f: list.append(i[:-5])x=[]y=[]datapath=(r'C:\Users\jxu\Desktop\data.xlsx')data=pd.read_原创 2020-12-09 20:15:35 · 104 阅读 · 0 评论 -
读取老文件夹,获取文件名,输出文件的重复次数,然后根据重复次数进行依次重命名
#读取老文件夹,获取文件名,输出文件的重复次数,然后根据重复次数进行依次重命名import pandas as pdimport osimport shutilimport repath=(r'F:\选图\武夷山\未录入')#未录入文件夹newpath=(r'F:\选图\武夷山\录入未确定')#录入未确定文件夹f=os.listdir(path)f.sort(key=lambda x:int(x[:-8]+x[-6]))#截取文件名中的数字部分并排序print('未录入文件夹内文件数:原创 2020-12-09 20:15:07 · 153 阅读 · 0 评论 -
读取TXT文件,删除指定开头的行,保留关键信息
#读取TXT文件,删除指定开头的行,保留关键信息path=(r'C:\Users\jxu\Desktop\新建文本文档.txt')newpath=(r'F:\选图\武夷山\录入未确定')import osimport shutilf=open(path)file=f.readlines()s=['重复次数:4\n','重复次数:3\n','重复次数:2\n','重复次数:1\n']for i in file: if i in s: file.remove(i)#根据原创 2020-12-09 20:13:33 · 816 阅读 · 0 评论 -
获取图片的重复次数,然后根据重复次数进行重命名
#重命名并且转移文件夹#获取图片的重复次数,然后根据重复次数进行重命名import pandas as pdimport osimport shutilpath=(r'F:\选图\武夷山\新建文件夹')newpath=(r'F:\选图\武夷山\新建文件夹')f=os.listdir(path)f.sort(key=lambda x:int(x[:-8]+x[-6]))#截取文件名中的数字部分并排序print(len(f))oldnames=[]for i in range(len(原创 2020-12-09 20:13:05 · 134 阅读 · 0 评论 -
实现类似excel里面vlookup的功能
#**实现类似excel里面vlookup的功能**#根据录入去重里面的采集号去照片录入这个文件里面找对应的采集号#然后输出此采集号对应的行数import pandas as pdimport osfiledata1=pd.read_excel(r'C:\Users\jxu\Desktop\录入去重.xlsx')filedata1=filedata1['采集号'].tolist()#将采集号这一列输出为列表print(len(filedata1))#输出采集号的数目frame = pd原创 2020-12-09 20:12:26 · 569 阅读 · 0 评论