智写AI手把手教你数据科学(一)-CSDN博客

本文链接：https://blog.csdn.net/draftai/article/details/130197171

本文介绍了如何使用Python的数据科学库，如yfinance和Prophet进行时间序列分析，预测苹果公司的股价。同时，展示了如何利用scikit-learn构建逻辑回归模型预测用户留存。此外，还讨论了决策树模型的超参数调整方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据科学是近年来计算机领域炙手可热的方向，大数据、人工智能的火热持续了将近十年时间。这个领域依然有非常优秀的前途，根据谷歌的数据，在美国数据科学家工资中位数为300,000 美元，基本部分为175,000美元，股票部分为100,000美元，奖金为25,000美元。在中国这个数据也是非常可观，中位数大概在30万人民币左右。智写AI具备非常强大的数据科学辅导能力，我们接下来看如果通过使用智写AI来实现数据科学入门。

接下来，我已经整理了各种数据科学提示，可以与智写AI一起使用。要开始，请将以下提示作为智写AI的输入。将 [squarebrackets]中的所有内容替换为您自己的内容，以获得特定于您的用例的结果。

1. 探索数据

我希望你能扮演数据科学家的角色，为我编写代码。我有一个数据集[ 用户属性和留存数据]。请编写数据可视化和探索的代码。

首先，确保您已经安装了所需的库：

pip install yfinance
pip install prophet

接下来，编写以下代码：

import yfinance as yf
import pandas as pd
from fbprophet import Prophet

# 下载苹果公司股价数据
ticker = "AAPL"
start_date = "2022-01-01"
end_date = "2023-02-28"

stock_data = yf.download(ticker, start=start_date, end=end_date)

# 准备数据
stock_data.reset_index(inplace=True)
data = pd.DataFrame()
data['ds'] = stock_data['Date']
data['y'] = stock_data['Close']

# 划分训练集和验证集
train_data = data[data['ds'] < '2023-01-01']
validation_data = data[data['ds'] >= '2023-01-01']

# 创建Prophet模型并拟合训练数据
model = Prophet(daily_seasonality=True)
model.fit(train_data)

# 预测2023年4月份的股价
future = model.make_future_dataframe(periods=60) # 4月份共30天，加上3月份的30天共60天
forecast = model.predict(future)

# 输出预测结果
predicted_stock_price = forecast.loc[forecast['ds'] >= '2023-04-01', ['ds', 'yhat', 'yhat_lower', 'yhat_upper']]
print(predicted_stock_price)

训练模型

首先，确保您已经安装了所需的库：

pip install pandas scikit-learn

我希望你能扮演数据科学家的角色，为我编写代码。我有一个数据集，其中包含 [ 用户属性和留存数据] 。请构建一个机器学习模型，预测 [用户在未来一天是否会留存] 。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 1. 加载数据集
# 假设您的数据集是一个CSV文件，其中包含用户属性和留存数据
data = pd.read_csv("your_dataset.csv")

# 2. 数据预处理
# 假设您的数据集中，"retained" 是目标变量，表示用户是否留存
X = data.drop("retained", axis=1)
y = data["retained"]

# 3. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 5. 构建和训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 6. 预测和评估
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# 输出更详细的评估报告
print(classification_report(y_test, y_pred))

# 输出混淆矩阵
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

此代码假设我们的数据在名为“your_dataset.csv”的CSV文件中，最后一列是标签“retained”。该代码使用逻辑回归模型来训练模型，我们也可以要求智写AI使用其他算法。

3****. 调整超参数****

我希望你能扮演数据科学家的角色，为我编写代码。我已经训练了一个 [基于scikit-learn库的决策树模型] 。请编写代码来调整超参数，请只写调整超参相关的代码内容。

当然可以，以下是使用 scikit-learn 库的 **GridSearchCV**调整决策树模型超参数的相关代码内容：

from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

# 创建决策树模型
model = DecisionTreeClassifier(random_state=42)

# 定义超参数网格
param_grid = {
    "criterion": ["gini", "entropy"],
    "max_depth": [None, 10, 20, 30, 40, 50],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
}

# 使用 GridSearchCV 进行超参数调整
grid_search = GridSearchCV(model, param_grid, cv=5, scoring="accuracy", n_jobs=-1)
grid_search.fit(X_train, y_train)

# 输出最佳参数组合
print("Best parameters found:")
print(grid_search.best_params_)

# 使用最佳参数组合重新训练模型
best_model = grid_search.best_estimator_

这段代码展示了如何使用 GridSearchCV 调整决策树模型的超参数。您需要将这段代码插入到您已有的数据预处理和模型训练的相关部分。根据实际情况，您可能需要调整超参数网格中的值以获得最佳性能。

智写AI手把手教你数据科学(二) - 时间序列预测实操！如何通过智写AI预测苹果股票未来一个月的股价。https://mp.weixin.qq.com/s?__biz=MzkyMjQzMTQxMA==&mid=2247483817&idx=1&sn=dc7146531dc217b34242c086dbbbfc07&chksm=c1f53b74f682b26254ed34da72bfc231bb76db6193980b50383cd5ef600e1695bf1d1245e0c4&token=510387484&lang=zh_CN#rd