数据处理
JLU-C++
本人目前研二在读,主要工作意向C++岗,不限位置
QQ:3152618907
展开
-
数据处理-将图片复制到指定的文件夹中
import pandas as pddf = pd.read_csv('/home/weidu/桌面/first1.csv',header=None)data = df.valuesfirst_col = []third_col = []for i in range(len(data)): first_col.append(data[i][0]) third_col.append((data[i][2]))# print(len(first_col))# # print(f原创 2021-03-29 11:14:44 · 354 阅读 · 0 评论 -
计算auc和acc以及svm的demo
print("下面这只是一个SVM测试")from sklearn import svmimport warningswarnings.filterwarnings("ignore", category=FutureWarning, module="sklearn", lineno=196)X = [[0, 0], [0, 1], [1, 0], [1, 1]] # training samplesy = [0, 1, 2, 3] # training targety_test = [0,原创 2021-02-26 17:18:22 · 937 阅读 · 0 评论 -
python将分类名称和便签存入字典中
读取目标文件将分类名称和标签分别存入两个list中将两个list合并成一个dictfile = open("C:/Users/Administrator/Desktop/brca.grade","r")TCGAlist = []gradeList = []for line in file.readlines(): # print(line.split("\t")) print(line.split("\t")[0]) TCGAlist.append(line.spli原创 2021-02-04 11:41:19 · 299 阅读 · 1 评论 -
将卡方检验出来的5000特征通过mrmr筛选出来500个
# 目标1:将list中存在的特征名称所对应的特征列筛选出来,存入csv文件中# 1、从txt文件中将500个特征存入list中(简单)# 2、读取csv文件,并且判断csv中的列的名称是不是在list中,若是则存入新的csv中import pandas as pdfile = open("C:/Users/Administrator/Desktop/cnv.txt","r")# print(file)featureList = []for line in file.readlines()原创 2021-01-20 17:10:53 · 366 阅读 · 0 评论 -
卡方检验从csv文件中筛选出5000个特征
皮尔逊的卡方检验(拟合度) 不适用于负值。这是合乎逻辑的,因为卡方检验假定频率分布,频率不能是负数。所以, sklearn.feature_selection.chi2 断言输入是非负的。 所以要用归一化处理# 1、先用筛选出来的特征直接放进去试试# # 2、import pandas as pdimport numpy as npfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection.原创 2021-01-19 20:04:08 · 341 阅读 · 1 评论 -
从csv格式的文件抽取几列到另一个csv文件
# 下面这是对三个组学数据的列进行随机抽取200做一下测试,看看生成的曲线(随机抽取两次)# -*- coding=utf-8 -*-import pandas as pdcsv_file = pd.read_csv('/home/weidu/qwb/MORONET-master/BRCA-QWB/brca_meth.csv') #读取原csv文件sample = csv_file.sample(n=200, random_state=10, axis=1)###n=200表示抽200个,ra原创 2020-12-28 19:49:53 · 1129 阅读 · 0 评论 -
python简单曲线制作
import matplotlib.pyplot as plt# x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 5原创 2020-12-21 09:13:12 · 800 阅读 · 0 评论 -
多分类下的ROC曲线和AUC
参考这篇原创 2020-12-15 21:07:53 · 444 阅读 · 0 评论 -
python制作VOC数据集中的xml文件(Annotations文件夹中)
只需修改读写地址即可:# -*- coding:utf-8 -*-from lxml.etree import Element, SubElement, tostringfrom xml.dom.minidom import parseStringimport jsonimport osimport cv2import codecsimport numpy as npdef save_xml(image_name, bbox, save_dir='/home/weidu/zhourixi原创 2020-11-06 21:02:38 · 1388 阅读 · 0 评论 -
python—数据处理—拷贝txt中有需求的行到目标txt中
乳腺癌样本1133个,下载所需内容以txt文件存储,1134行有用的为607行,需要将有用的行筛选出来,# 任务4、import pandas as pddf = pd.read_csv('C:/Users/Administrator/Desktop/test/useful.csv',header=None,low_memory=False)data = df.valuesdata = list(map(list,zip(*data)))rulist = []for i in range原创 2020-10-26 00:02:38 · 257 阅读 · 1 评论 -
python—数据处理—将【目标样本所对应的】文件及其文件夹剪切到目标文件夹中
目标csv中的第一行是样本的id,有606个,1、先将这些样本id存入list中,如下图:目标:将含有上诉目标样本id的svs文件以及文件夹剪切到G:/TCGA-606目录(处理完大概是有400个),# 3、匹配import pandas as pddf = pd.read_csv('C:/Users/Administrator/Desktop/test/test.csv',header=None)# print(df.values)# print(len(df.values))data原创 2020-10-25 23:57:47 · 241 阅读 · 0 评论 -
python—数据处理—将csv格式的文件转置(行列互换)
对于CVS格式文件的转置,如果数据量少的话可以直接用excel打开,然后直接用excel中的复制,粘贴转置操作:# 下面是转置代码import pandas as pdfile=open('C:/Users/Administrator/Desktop/test/test1.csv','w')df = pd.read_csv('C:/Users/Administrator/Desktop/test/test.csv',header= None,low_memory=False)# df.value原创 2020-10-25 23:42:45 · 11839 阅读 · 6 评论 -
python—数据处理—剪切目标格式文件以及其文件夹
问题描述下载TCGA-BRCA【乳腺癌数据】,但是中间有下载出问题的文件夹(里面的格式不是.svs格式,是partial.格式),上篇博客用的删除操作因为数据量很大,删除错的话,下载就难,所以我就尝试转用剪切的操作,解决import osimport shutilfrom shutil import movepath1 = "C:/Users/Administrator/Desktop/test" #需要复制的文件所在地址path2 = "G:/" #目标地址filename_list原创 2020-10-25 23:30:26 · 306 阅读 · 0 评论 -
python—数据处理—删除目标格式文件以及其文件夹
问题描述下载TCGA-BRCA【乳腺癌数据】,但是中间有下载出问题的文件夹(里面的格式不是.svs格式,是partial.格式),这个时候就需要删除partial.格式文件以及其目录文件。由于TCGA-BRCA的数据很大,就先设置一个样例在桌面新建一个test文件夹,文件夹中有a,b两个文件夹,a文件夹中有a.txt文件,解决import shutilimport os #导入模块def del原创 2020-10-25 23:24:10 · 286 阅读 · 0 评论