基于测井数据的复杂岩性智能识别系统

最新推荐文章于 2025-08-30 22:29:59 发布

神经网络697344

最新推荐文章于 2025-08-30 22:29:59 发布

阅读量733

点赞数 19

CC 4.0 BY-SA版权

分类专栏：深度学习模型仿真算法文章标签：分类迁移学习数据挖掘 python 人工智能

本文链接：https://blog.csdn.net/max500600/article/details/150978087

算法同时被 3 个专栏收录

188 篇文章

订阅专栏

模型仿真

42 篇文章

订阅专栏

深度学习

30 篇文章

订阅专栏

基于测井数据的复杂岩性智能识别系统

1. 引言

岩性识别是石油勘探与地质研究中的基础工作，准确识别地下岩性对于储层评价、油气预测和钻井工程具有重要意义。传统岩性识别主要依赖岩心样本和专家经验，但这种方法成本高、效率低且主观性强。随着测井技术的发展，利用测井数据进行岩性识别已成为行业研究热点。

测井数据是通过井下仪器测量地层物理参数得到的一系列曲线，常见的有自然伽马(GR)、声波时差(AC)、密度(DEN)、中子孔隙度(CNL)和电阻率(RT)等。不同岩性由于矿物成分、结构和物性差异，会表现出不同的测井响应特征。因此，通过分析测井数据可以推断地下岩性。

近年来，机器学习方法在岩性识别领域展现出强大潜力。本文旨在开发一个基于Python的复杂岩性识别系统，利用机器学习算法从测井数据中学习岩性特征，实现对未知地层岩性的准确预测。

2. 问题分析与技术路线

2.1 问题分析

复杂岩性识别面临以下挑战：

岩性种类多样，测井响应特征复杂
不同岩性间的测井响应可能存在重叠
测井数据受井眼环境、仪器测量误差等因素影响
样本数据不平衡，某些岩性样本数量较少

2.2 技术路线

本项目将采用以下技术路线：

数据预处理：处理缺失值、异常值和数据标准化
特征工程：提取有区分度的特征，增强模型泛化能力
模型选择：对比多种机器学习算法，选择最佳模型
模型集成：使用集成学习方法提高预测精度
模型评估：采用多种指标全面评估模型性能

3. 数据准备与预处理

3.1 数据加载与探索

首先导入必要的Python库：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from imblearn.over_sampling import SMOTE
import joblib
import warnings
warnings.filterwarnings('ignore')

# 设置绘图风格
plt.style.use('seaborn-whitegrid')

假设我们已有训练集数据文件training_data.csv，包含以下列：DEPTH(深度)、GR(自然伽马)、AC(声波时差)、DEN(密度)、CNL(中子孔隙度)、RT(电阻率)和LITHOLOGY(岩性)。

# 加载训练数据
train_data = pd.read_csv('training_data.csv')
print("训练数据形状:", train_data.shape)
print("\n前5行数据:")
print(train_data.head())
print("\n数据基本信息:")
print(train_data.info())
print("\n统计描述:")
print(train_data.describe())
print("\n岩性分布:")
print(train_data['LITHOLOGY'].value_counts())

3.2 数据清洗

处理缺失值和异常值：

# 检查缺失值
print("缺失值统计:")
print(train_data.isnull().sum())

# 处理缺失值 - 使用前后平均值填充
train_data.fillna(method='ffill', inplace=True)
train_data.fillna(method='bfill', inplace=True)

# 检测和处理异常值
def handle_outliers(df, columns):
    for col in columns:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        # 将异常值替换为边界值
        df[col] = np.where(df[col] < lower_bound, lower_bound, df[col])
        df[col] = np.where(df[col] > upper_bound, upper_bound, df[col])
    return df

# 处理测井数据的异常值
log_columns = ['GR', 'AC', 'DEN', 'CNL', 'RT']
train_data = handle_outliers(train_data, log_columns)

3.3 数据可视化

分析测井数据特征和岩性分布：

# 绘制测井曲线分布
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
for i, col in enumerate(log_columns):
    row, col_idx = i // 3, i % 3
    axes[row, col_idx].hist(train_data[col], bins=50, alpha=0.7, color='steelblue')
    axes[row, col_idx].set_title(f'{col} Distribution')
    axes[row, col_idx].set_xlabel(col)
    axes[row, col_idx].set_ylabel('Frequency')

plt.tight_layout()
plt.show()

# 绘制岩性分布
plt.figure(figsize=(10, 6))
lith_counts = train_data['LITHOLOGY'].value_counts()
plt.bar(lith_counts.index, lith_counts.values, color='lightcoral')
plt.title('Lithology Distribution')
plt.xlabel('Lithology')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.show()

# 不同岩性的测井响应特征
lithologies = train_data['LITHOLOGY'].unique()
n_lith = len(lithologies)

fig, axes = plt.subplots(2, 3, figsize=(18, 12))
for i, col in enumerate(log_columns):
    row, col_idx = i // 3, i % 3
    for lith in lithologies:
        lith_data = train_data[train_data['LITHOLOGY'] == lith][col]
        axes[row, col_idx].hist(lith_data, alpha=0.5, label=lith, bins=30)
    axes[row, col_idx].set_title(f'{col} by Lithology')
    axes[row, col_idx].set_xlabel(col)
    axes[row, col_idx].set_ylabel('Frequency')
    axes[row, col_idx].legend()

plt.tight_layout()
plt.show()

3.4 数据标准化

将测井数据标准化到相同尺度：

# 分离特征和标签
X = train_data[log_columns]
y = train_data['LITHOLOGY']

# 编码岩性标签
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# 保存标签编码器用于后续预测
joblib.dump(le, 'label_encoder.pkl')

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 保存标准化器用于后续预测
joblib.dump(scaler, 'scaler.pkl')

3.5 处理类别不平衡

使用SMOTE方法处理岩性类别不平衡问题：

# 检查类别分布
print("原始类别分布:", np.bincount(y_encoded))

# 应用SMOTE过采样
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_scaled, y_encoded)

print("SMOTE后类别分布:", np.bincount(y_resampled))

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X_resampled, y_resampled, test_size=0.2, random_state=42, stratify=y_resampled
)

print(f"训练集大小: {X_train.shape}, 测试集大小: {X_test.shape}")

4. 特征工程

4.1 基础特征构建

除了原始测井数据，还可以构建一些衍生特征：

# 创建特征DataFrame
feature_df = pd.DataFrame(X_scaled, columns=log_columns)

# 添加测井曲线比值特征
feature_df['GR_AC'] = feature_df['GR'] / feature_df['AC']
feature_df['GR_DEN'] = feature_df['GR'] / feature_df['DEN']
feature_df['AC_CNL'] = feature_df['AC'] / feature_df['CNL']
feature_df['DEN_CNL'] = feature_df['DEN'] / feature_df['CNL']

# 添加测井曲线乘积特征
feature_df['GR_AC_product'] = feature_df['GR'] * feature_df['AC']
feature_df['DEN_CNL_product'] = feature_df['DEN'] * feature_df['CNL']

# 添加多项式特征
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
poly_features = poly.fit_transform(X_scaled)
poly_feature_names = poly.get_feature_names_out(log_columns)
poly_df = pd.DataFrame(poly_features, columns=poly_feature_names)

# 合并所有特征
all_features = pd.concat([feature_df, poly_df], axis=1)

print("特征维度:", all_features.shape)

4.2 特征选择

使用随机森林进行特征重要性评估：

# 使用随机森林评估特征重要性
rf_for_feature_importance = RandomForestClassifier(n_estimators=100, random_state=42)
rf_for_feature_importance.fit(X_train, y_train)

# 获取特征重要性
feature_importance = rf_for_feature_importance.feature_importances_
feature_names = all_features.columns

# 创建特征重要性DataFrame
importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': feature_importance
}).sort_values('importance', ascending=False)

# 绘制特征重要性
plt.figure(figsize=(12, 8))
plt.barh(importance_df['feature'][:15], importance_df['importance'][:15])
plt.xlabel('Importance')
plt.title('Top 15 Feature Importance')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

# 选择前20个最重要特征
selected_features = importance_df['feature'][:20].values
X_train_selected = all_features.loc[X_train.index][selected_features]
X_test_selected = all_features.loc[X_test.index][selected_features]

print("选择的特征:", selected_features)

5. 模型选择与构建

5.1 模型选择

我们将比较多种机器学习算法：

随机森林 (Random Forest)
梯度提升树 (Gradient Boosting)
支持向量机 (SVM)
神经网络 (Neural Network)

# 初始化分类器
classifiers = {
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingClassifier(n_estimators=100, random_state=42),
    "SVM": SVC(kernel='rbf', probability=True, random_state=42),
    "Neural Network": MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=1000, random_state=42)
}

5.2 模型训练与评估

# 训练和评估模型
results = {}

for name, clf in classifiers.items():
    print(f"训练 {name}...")
    clf.fit(X_train_selected, y_train)
    y_pred = clf.predict(X_test_selected)
    accuracy = accuracy_score(y_test, y_pred)
    results[name] = {
        'model': clf,
        'accuracy': accuracy,
        'report': classification_report(y_test, y_pred, output_dict=True),
        'confusion_matrix': confusion_matrix(y_test, y_pred)
    }
    print(f"{name} 准确率: {accuracy:.4f}")

# 比较模型性能
plt.figure(figsize=(10, 6))
model_names = list(results.keys())
accuracies = [results[name]['accuracy'] for name in model_names]
plt.bar(model_names, accuracies, color=['steelblue', 'lightcoral', 'mediumseagreen', 'goldenrod'])
plt.title('Model Comparison')
plt.xlabel('Model')
plt.ylabel('Accuracy')
plt.ylim(0, 1)
for i, v in enumerate(accuracies):
    plt.text(i, v + 0.01, f'{v:.4f}', ha='center')
plt.tight_layout()
plt.show()

5.3 交叉验证

使用交叉验证进一步评估模型稳定性：

# 交叉验证
cv_results = {}
for name, clf in classifiers.items():
    cv_scores = cross_val_score(clf, X_train_selected, y_train, cv=5, scoring='accuracy')
    cv_results[name] = cv_scores
    print(f"{name} 交叉验证准确率: {cv_scores.mean():.4f} (±{cv_scores.std():.4f})")

# 绘制交叉验证结果
plt.figure(figsize=(10, 6))
plt.boxplot(cv_results.values())
plt.xticks(range(1, len(cv_results) + 1), cv_results.keys())
plt.title('Cross-Validation Results')
plt.ylabel('Accuracy')
plt.tight_layout()
plt.show()

6. 模型训练与优化

6.1 超参数调优

对性能最佳的模型进行超参数优化：

# 选择性能最佳的模型进行调优
best_model_name = max(results, key=lambda k: results[k]['accuracy'])
print(f"最佳模型: {best_model_name}")

# 根据最佳模型选择相应的参数网格
if best_model_name == "Random Forest":
    param_grid = {
        'n_estimators': [50, 100, 200],
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }
elif best_model_name == "Gradient Boosting":
    param_grid = {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 4, 5],
        'subsample': [0.8, 0.9, 1.0]
    }
elif best_model_name == "SVM":
    param_grid = {
        'C': [0.1, 1, 10, 100],
        'gamma': ['scale', 'auto', 0.01, 0.1]
    }
else:  # Neural Network
    param_grid = {
        'hidden_layer_sizes': [(50,), (100,), (100, 50)],
        'alpha': [0.0001, 0.001, 0.01],
        'learning_rate_init': [0.001, 0.01, 0.1]
    }

# 执行网格搜索
grid_search = GridSearchCV(
    estimators[best_model_name],
    param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=1
)

print("开始网格搜索...")
grid_search.fit(X_train_selected, y_train)

print(f"最佳参数: {grid_search.best_params_}")
print(f最佳交叉验证分数: {grid_search.best_score_:.4f}")

# 使用最佳参数训练最终模型
best_model = grid_search.best_estimator_
best_model.fit(X_train_selected, y_train)

# 评估最终模型
y_pred_best = best_model.predict(X_test_selected)
best_accuracy = accuracy_score(y_test, y_pred_best)
print(f"调优后模型准确率: {best_accuracy:.4f}")

# 保存最佳模型
joblib.dump(best_model, 'best_lithology_model.pkl')

6.2 模型集成

考虑使用集成方法进一步提高性能：

# 使用投票分类器集成多个模型
from sklearn.ensemble import VotingClassifier

# 选择前3个性能最好的模型
top_models = sorted(results.items(), key=lambda x: x[1]['accuracy'], reverse=True)[:3]
estimators = [(name, results[name]['model']) for name, _ in top_models]

# 创建投票分类器
voting_clf = VotingClassifier(estimators=estimators, voting='soft')
voting_clf.fit(X_train_selected, y_train)

# 评估集成模型
y_pred_voting = voting_clf.predict(X_test_selected)
voting_accuracy = accuracy_score(y_test, y_pred_voting)
print(f"集成模型准确率: {voting_accuracy:.4f}")

# 比较所有模型性能
model_comparison = pd.DataFrame({
    'Model': list(results.keys()) + ['Tuned ' + best_model_name, 'Voting Ensemble'],
    'Accuracy': [results[name]['accuracy'] for name in results.keys()] + [best_accuracy, voting_accuracy]
}).sort_values('Accuracy', ascending=False)

print(model_comparison)

7. 岩性预测与结果分析

7.1 加载未知数据

假设我们有未知数据文件unknown_data.csv，包含需要预测的测井数据：

# 加载未知数据
unknown_data = pd.read_csv('unknown_data.csv')
print("未知数据形状:", unknown_data.shape)
print("\n前5行数据:")
print(unknown_data.head())

# 预处理未知数据
unknown_processed = unknown_data.copy()
unknown_processed = handle_outliers(unknown_processed, log_columns)

# 确保没有缺失值
unknown_processed.fillna(method='ffill', inplace=True)
unknown_processed.fillna(method='bfill', inplace=True)

# 应用相同的标准化
X_unknown = unknown_processed[log_columns]
X_unknown_scaled = scaler.transform(X_unknown)

# 创建相同的特征工程
unknown_feature_df = pd.DataFrame(X_unknown_scaled, columns=log_columns)

# 添加相同的衍生特征
unknown_feature_df['GR_AC'] = unknown_feature_df['GR'] / unknown_feature_df['AC']
unknown_feature_df['GR_DEN'] = unknown_feature_df['GR'] / unknown_feature_df['DEN']
unknown_feature_df['AC_CNL'] = unknown_feature_df['AC'] / unknown_feature_df['CNL']
unknown_feature_df['DEN_CNL'] = unknown_feature_df['DEN'] / unknown_feature_df['CNL']
unknown_feature_df['GR_AC_product'] = unknown_feature_df['GR'] * unknown_feature_df['AC']
unknown_feature_df['DEN_CNL_product'] = unknown_feature_df['DEN'] * unknown_feature_df['CNL']

# 添加多项式特征
unknown_poly_features = poly.transform(X_unknown_scaled)
unknown_poly_df = pd.DataFrame(unknown_poly_features, columns=poly_feature_names)

# 合并所有特征
unknown_all_features = pd.concat([unknown_feature_df, unknown_poly_df], axis=1)

# 选择相同的特征子集
X_unknown_selected = unknown_all_features[selected_features]

print("未知数据处理完成，形状:", X_unknown_selected.shape)

7.2 进行岩性预测

使用训练好的模型进行预测：

# 加载模型和编码器
best_model = joblib.load('best_lithology_model.pkl')
le = joblib.load('label_encoder.pkl')

# 进行预测
y_unknown_pred = best_model.predict(X_unknown_selected)
y_unknown_proba = best_model.predict_proba(X_unknown_selected)

# 将编码的标签转换回原始岩性名称
predicted_lithology = le.inverse_transform(y_unknown_pred)

# 将预测结果添加到数据中
unknown_data['PREDICTED_LITHOLOGY'] = predicted_lithology

# 添加每个预测的概率
lithology_classes = le.classes_
for i, lith_class in enumerate(lithology_classes):
    unknown_data[f'PROB_{lith_class}'] = y_unknown_proba[:, i]

print("预测完成!")
print(unknown_data[['DEPTH'] + log_columns + ['PREDICTED_LITHOLOGY']].head(10))

7.3 结果可视化与分析

# 绘制预测结果随深度的变化
plt.figure(figsize=(12, 8))
lithology_colors = {
    'Sandstone': 'yellow',
    'Shale': 'gray',
    'Limestone': 'blue',
    'Dolomite': 'green',
    'Coal': 'black'
}

# 创建岩性颜色映射
colors = [lithology_colors.get(lith, 'red') for lith in unknown_data['PREDICTED_LITHOLOGY']]

# 绘制岩性柱
plt.barh(unknown_data['DEPTH'], width=1, color=colors, height=5)
plt.gca().invert_yaxis()
plt.title('Predicted Lithology Column')
plt.xlabel('Lithology')
plt.ylabel('Depth (m)')

# 创建图例
from matplotlib.patches import Patch
legend_elements = [Patch(facecolor=color, label=lith) 
                   for lith, color in lithology_colors.items()]
plt.legend(handles=legend_elements, loc='lower right')
plt.tight_layout()
plt.show()

# 绘制测井曲线和预测结果
fig, axes = plt.subplots(1, 6, figsize=(18, 10))
fig.suptitle('Well Logs and Predicted Lithology', fontsize=16)

# 绘制每条测井曲线
log_tracks = ['GR', 'AC', 'DEN', 'CNL', 'RT']
for i, log in enumerate(log_tracks):
    axes[i].plot(unknown_data[log], unknown_data['DEPTH'])
    axes[i].set_title(log)
    axes[i].set_ylabel('Depth (m)')
    axes[i].invert_yaxis()
    axes[i].grid(True)

# 绘制岩性道
lithology_mapping = {lith: i for i, lith in enumerate(unknown_data['PREDICTED_LITHOLOGY'].unique())}
lithology_numeric = [lithology_mapping[lith] for lith in unknown_data['PREDICTED_LITHOLOGY']]

axes[5].plot(lithology_numeric, unknown_data['DEPTH'], 'k-', linewidth=3)
axes[5].set_title('Lithology')
axes[5].set_yticks([])
axes[5].set_xticks(range(len(lithology_mapping)))
axes[5].set_xticklabels(lithology_mapping.keys(), rotation=45)
axes[5].invert_yaxis()

plt.tight_layout()
plt.show()

# 统计各岩性占比
lithology_counts = unknown_data['PREDICTED_LITHOLOGY'].value_counts()
plt.figure(figsize=(10, 6))
plt.pie(lithology_counts.values, labels=lithology_counts.index, autopct='%1.1f%%')
plt.title('Predicted Lithology Distribution')
plt.tight_layout()
plt.show()

7.4 结果验证与不确定性分析

# 分析预测置信度
max_probs = np.max(y_unknown_proba, axis=1)
uncertain_predictions = np.mean(max_probs < 0.7) * 100

print(f"不确定性预测比例 (置信度<0.7): {uncertain_predictions:.2f}%")

# 绘制置信度分布
plt.figure(figsize=(10, 6))
plt.hist(max_probs, bins=30, alpha=0.7, color='steelblue')
plt.axvline(x=0.7, color='red', linestyle='--', label='Uncertainty Threshold')
plt.title('Prediction Confidence Distribution')
plt.xlabel('Maximum Class Probability')
plt.ylabel('Frequency')
plt.legend()
plt.tight_layout()
plt.show()

# 识别低置信度层段
unknown_data['CONFIDENCE'] = max_probs
low_confidence_data = unknown_data[unknown_data['CONFIDENCE'] < 0.7]

print(f"低置信度层段数量: {len(low_confidence_data)}")
if not low_confidence_data.empty:
    print("低置信度层段深度范围:")
    print(f"顶部: {low_confidence_data['DEPTH'].min()} m")
    print(f"底部: {low_confidence_data['DEPTH'].max()} m")

8. 系统部署与应用

8.1 创建预测管道

将整个预处理和预测过程封装成管道：

from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin

# 创建特征工程转换器
class FeatureEngineer(BaseEstimator, TransformerMixin):
    def __init__(self, selected_features):
        self.selected_features = selected_features
        self.poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
        
    def fit(self, X, y=None):
        self.poly.fit(X)
        return self
        
    def transform(self, X):
        # 创建基础特征DataFrame
        feature_df = pd.DataFrame(X, columns=log_columns)
        
        # 添加衍生特征
        feature_df['GR_AC'] = feature_df['GR'] / feature_df['AC']
        feature_df['GR_DEN'] = feature_df['GR'] / feature_df['DEN']
        feature_df['AC_CNL'] = feature_df['AC'] / feature_df['CNL']
        feature_df['DEN_CNL'] = feature_df['DEN'] / feature_df['CNL']
        feature_df['GR_AC_product'] = feature_df['GR'] * feature_df['AC']
        feature_df['DEN_CNL_product'] = feature_df['DEN'] * feature_df['CNL']
        
        # 添加多项式特征
        poly_features = self.poly.transform(X)
        poly_feature_names = self.poly.get_feature_names_out(log_columns)
        poly_df = pd.DataFrame(poly_features, columns=poly_feature_names)
        
        # 合并所有特征
        all_features = pd.concat([feature_df, poly_df], axis=1)
        
        # 选择特征子集
        return all_features[self.selected_features]

# 创建完整管道
lithology_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('feature_engineer', FeatureEngineer(selected_features)),
    ('classifier', best_model)
])

# 训练完整管道
lithology_pipeline.fit(X, y_encoded)

# 保存完整管道
joblib.dump(lithology_pipeline, 'lithology_prediction_pipeline.pkl')

8.2 创建用户界面

使用Streamlit创建简单的Web应用：

# 文件: app.py
import streamlit as st
import pandas as pd
import numpy as np
import joblib
import matplotlib.pyplot as plt

# 设置页面
st.set_page_config(page_title="岩性识别系统", layout="wide")
st.title("基于测井数据的复杂岩性识别系统")

# 加载模型
@st.cache_resource
def load_model():
    pipeline = joblib.load('lithology_prediction_pipeline.pkl')
    le = joblib.load('label_encoder.pkl')
    return pipeline, le

pipeline, le = load_model()

# 文件上传
uploaded_file = st.file_uploader("上传CSV文件", type="csv")

if uploaded_file is not None:
    # 读取数据
    data = pd.read_csv(uploaded_file)
    st.write("原始数据:", data.head())
    
    # 检查必要列
    required_columns = ['DEPTH', 'GR', 'AC', 'DEN', 'CNL', 'RT']
    if all(col in data.columns for col in required_columns):
        # 准备数据
        X_pred = data[required_columns[1:]]  # 排除DEPTH列
        
        # 进行预测
        predictions = pipeline.predict(X_pred)
        probabilities = pipeline.predict_proba(X_pred)
        
        # 添加预测结果
        data['PREDICTED_LITHOLOGY'] = le.inverse_transform(predictions)
        data['CONFIDENCE'] = np.max(probabilities, axis=1)
        
        st.write("预测结果:", data[['DEPTH'] + required_columns[1:] + ['PREDICTED_LITHOLOGY', 'CONFIDENCE']].head())
        
        # 可视化
        st.subheader("预测结果可视化")
        
        # 岩性分布
        fig, ax = plt.subplots()
        lith_counts = data['PREDICTED_LITHOLOGY'].value_counts()
        ax.pie(lith_counts.values, labels=lith_counts.index, autopct='%1.1f%%')
        ax.set_title('Predicted Lithology Distribution')
        st.pyplot(fig)
        
        # 下载结果
        csv = data.to_csv(index=False)
        st.download_button(
            label="下载预测结果",
            data=csv,
            file_name="lithology_predictions.csv",
            mime="text/csv"
        )
    else:
        st.error(f"CSV文件必须包含以下列: {required_columns}")

8.3 系统集成与API开发

使用FastAPI创建预测API：

# 文件: api.py
from fastapi import FastAPI, File, UploadFile
import pandas as pd
import numpy as np
import joblib
from io import StringIO

app = FastAPI(title="岩性识别API")

# 加载模型
pipeline = joblib.load('lithology_prediction_pipeline.pkl')
le = joblib.load('label_encoder.pkl')

@app.post("/predict")
async def predict_lithology(file: UploadFile = File(...)):
    # 读取上传的文件
    contents = await file.read()
    data = pd.read_csv(StringIO(contents.decode()))
    
    # 检查必要列
    required_columns = ['DEPTH', 'GR', 'AC', 'DEN', 'CNL', 'RT']
    if not all(col in data.columns for col in required_columns):
        return {"error": f"CSV文件必须包含以下列: {required_columns}"}
    
    # 准备数据
    X_pred = data[required_columns[1:]]  # 排除DEPTH列
    
    # 进行预测
    predictions = pipeline.predict(X_pred)
    probabilities = pipeline.predict_proba(X_pred)
    
    # 添加预测结果
    data['PREDICTED_LITHOLOGY'] = le.inverse_transform(predictions)
    data['CONFIDENCE'] = np.max(probabilities, axis=1)
    
    # 返回结果
    return data.to_dict(orient='records')

@app.get("/")
async def root():
    return {"message": "岩性识别API已就绪", "version": "1.0"}

9. 总结与展望

9.1 项目总结

本项目成功开发了一个基于机器学习的复杂岩性识别系统，主要成果包括：

建立了完整的数据预处理流程，包括缺失值处理、异常值检测和数据标准化
实施了有效的特征工程策略，提取了有区分度的特征
比较了多种机器学习算法，选择了性能最佳的模型并进行超参数优化
实现了岩性预测功能，并对预测结果进行了可视化分析
开发了用户友好的Web界面和API接口，便于实际应用

9.2 技术挑战与解决方案

数据质量问题：通过综合运用前后填充和边界值处理，有效解决了缺失值和异常值问题
类别不平衡：使用SMOTE过采样技术，提高了少数类岩性的识别准确率
特征选择：通过随机森林特征重要性评估，选择了最具判别力的特征子集
模型选择：通过交叉验证和网格搜索，找到了最适合岩性识别任务的模型和参数

9.3 未来展望

深度学习应用：探索使用卷积神经网络(CNN)处理测井曲线图像，或循环神经网络(RNN)处理序列数据
多井数据整合：开发能够同时处理多口井数据的模型，提高区域岩性预测精度
实时预测系统：集成到钻井实时系统中，为钻井工程提供即时岩性信息
不确定性量化：进一步研究预测不确定性的量化方法，提供更可靠的置信度评估
领域知识融合：将地质专家知识融入机器学习模型，提高模型的可解释性和可靠性

10. 参考文献

Hall, B. (2016). Facies classification using machine learning. The Leading Edge, 35(10), 906-909.
Bhattacharya, S., & Mishra, S. (2018). Applications of machine learning for facies and fracture prediction. AAPG Bulletin, 102(3), 318-331.
Cranganu, C., & Bautu, E. (2010). Using support vector machines to identify lithofacies. Journal of Petroleum Science and Engineering, 73(1-2), 1-5.
Wang, G., & Carr, T. R. (2012). Methodology of organic-rich shale lithofacies identification and prediction: A case study from Marcellus Shale in the Appalachian basin. Computers & Geosciences, 49, 151-163.
Saporetti, C. M., da Fonseca, L. G., Pereira, E., & de Oliveira, L. C. (2019). A machine learning approach to lithofacies classification using well logs. Journal of Petroleum Science and Engineering, 183, 106371.

通过本项目的实施，我们展示了机器学习在石油地质领域的强大应用潜力，为复杂岩性识别提供了一种高效、准确的解决方案。该系统不仅可以减少对专家经验的依赖，还能大大提高岩性识别的工作效率，为石油勘探开发提供有力支持。