1.表型数据文件格式(有列名)
2.具体步骤
2.1 运行环境
window环境下安装Git和Python(Linux中安装过python亦可)
表型数据文件夹下鼠标右键打开Git Bash Here
输入python py.py,回车
2.2 py.py代码
import pandas as pd
# 读取数据
df = pd.read_csv('phenotype_DD.txt', sep='\t', na_values=['NA'])
# 统计数量
count_df = df.count()
# 计算平均值
mean_df = df.mean()
# 计算最小值
min_df = df.min()
# 计算最大值
max_df = df.max()
# 计算标准差
std_df = df.std()
# 计算变异系数
cv_df = std_df / mean_df * 100 # 变异系数 = (标准差 / 平均值) * 100,以百分比表示
# 将结果合并为一个DataFrame
result_df = pd.concat([count_df, mean_df, min_df, max_df, std_df, cv_df], axis=1)
result_df.columns = ['Count', 'Mean', 'Min', 'Max', 'StdDev', 'Coefficient of Variation']
# 将结果写入新文件
result_df.to_csv('summary_stats.txt', sep='\t')
3. 结果文件summary_stats.txt