RNA代码

月光下的洪流

已于 2024-05-01 01:48:38 修改

阅读量206

点赞数 1

文章标签： android

于 2024-04-30 23:27:00 首次发布

本文链接：https://blog.csdn.net/m0_61008862/article/details/138358881

版权

文章讲述了如何使用Python对大型数据集进行特征选择，通过Pearson相关性计算和线性回归模型，找出最佳特征组合。代码中涉及到了数据读取、特征处理、并行计算和模型评估的过程。

摘要由CSDN通过智能技术生成

feature_selection目录下的代码

在终端输入

python -u ffs_final.py "./data/Final_sample_dataset_v1.csv" "./data/Pairwise_featcorr_0.8.pkl" 3 5 "all" "./output"

显示报错

因为数据太大，修改代码

修改ffs_final为如下代码进行运行

import sys
import csv
import pickle
import pandas as pd
from itertools import combinations
from sklearn import linear_model
from scipy.stats import pearsonr
from multiprocessing import Pool
import itertools

data = sys.argv[1]
two_combos = sys.argv[2]
nomit = sys.argv[3]
n_feat = sys.argv[4]
pass_feat = sys.argv[5]
outpath = sys.argv[6]

n_feat = int(n_feat)
nomit = int(nomit)

df = pd.read_csv(data, sep='\t', header=0)

feats_final = []
if pass_feat == "all":
feats_final = list(df.columns)[nomit:-1]
else:
with open(pass_feat) as feats:
for feat in feats.readlines():
feat = feat.strip()
feats_final.append(feat)

print("Total no. of features = " + str(len(feats_final)))

with open(two_combos, 'rb') as f:
pair_corrs = pickle.load(f)

pair_corrs = set(pair_corrs)

def regression_model(data, combination, y):
X = data[list(combination)]
model = linear_model.LinearRegression()
model.fit(X, y)
predicted = model.predict(X)
pearson_corr, _ = pearsonr(y, predicted)
return combination, pearson_corr, model.coef_

def find_pass_combos(combination, pair_corrs, data, y):
feat_pairs = set(list(combinations(combination, 2)))
feat_pass = [True for pair in feat_pairs if pair in pair_corrs]
if len(feat_pass) == len(feat_pairs):
return regression_model(data, combination, y)

y = df["pKd"]

# Define generator function to yield batches of combinations
def batch_combinations(features, batch_size):
for i in range(0, len(features), batch_size):
yield features[i:i+batch_size]

# Process combinations in batches
batch_size = 1000 # Adjust this according to your memory capacity
for n in range(n_feat, n_feat+1):
feat_combinations = set(combinations(feats_final, n))
print("No. of possible {} feature combinations: {}".format(n, len(feat_combinations)))

# Process combinations in batches
for feat_batch in batch_combinations(list(feat_combinations), batch_size):
results = []
for combination in feat_batch:
result = find_pass_combos(combination, pair_corrs, df, y)
if result:
results.append(result)

with open(outpath + "Aptamers_best_" + str(n) + "_feature_combos.log", 'a') as f:
for feat_combo, corr, coef in results:
f.write('\t'.join(feat_combo) + "\t" + str(corr) + "\t" + str(coef) + "\n")

print("Processed {} combinations".format(len(feat_batch)))

print(str(n) + " feature combinations done.")

月光下的洪流

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
RNA代码

根据脚本中的代码，这应该是一个文件名，用于写入满足特定相关系数阈值的模型。：这应该是一个文件路径，该文件包含您想要处理的回归输出数据。：这同样应该是一个文件名，用于写入满足更严格条件的模型。pool.join() # 等待所有子进程完成。# ... 使用 pool 的代码 ...pool.close() # 关闭进程池。# 你的代码，包括 pool 的创建和关闭。作为该参数，这看起来是正确的。# 确保你的代码中有这样的结构。作为该参数，这也是正确的。替换为实际的文件路径。
复制链接

扫一扫