最近一直在研究chatgpt在数据分析领用的实际使用,有几个比较具体的实际案例是我在处理工作中遇到的,给大家分享一下。
一个是在商业领域,经常性的需要写日报周报月报,但到了3月底 还需要一个季度报,而季度报的数据处理是比较多的,因此,我用chatgpt 帮我写了很多个脚本。
可以看到的是它理解错了
虽然是很基础的数据合并脚本,但是它能在30秒内给我正确的答案,如果是我自己写,或许需要3-5分钟。
然后我让它帮忙写一个随机森林算法,用于用户分析,并做roc,auc和混淆矩阵的分析。
# 读取用户数据集
df = pd.read_csv('user_data.csv')
# 将数据集中的标签(是否复购)转换为二元分类
df['repurchase'] = np.where(df['repurchase'] == 1, 1, 0)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop('repurchase', axis=1), df['repurchase'], test_size=0.2, random_state=42)
# 构建随机森林模型
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf