![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
小黑数据科学成长笔记
文章平均质量分 60
爱喝喜茶爱吃烤冷面的小黑黑
这个作者很懒,什么都没留下…
展开
-
小黑跟师叔们一起这次一定要拿牌,先跑一下别人的EDA代码:议论文评分
比赛链接:https://www.kaggle.com/competitions/feedback-prize-effectiveness/overview 公开代码:https://www.kaggle.com/code/mustafakeser4/feedback-eda/notebook 统计每类问题下,学生们的答题评分分布 分别考察:训练集整体评分分布、训练集整体问题类型分布、测试集整体评分分布 统计每个评分下,“问题”的长度分布 每篇文章的字数统计 文章的长度分布 每个评分的原创 2022-07-04 20:00:48 · 154 阅读 · 0 评论 -
小黑ai4code代码baseline啃食1
比赛链接:https://www.kaggle.com/competitions/AI4Code 源代码链接:https://www.kaggle.com/code/ryanholbrook/getting-started-with-ai4code/notebook 训练cell数据读入 建立索引(id,cell_id) 训练集特征构建 (416586, 284) 模型评估 (y_valid, y_dummy): 0.42511216883092573 (y_valid, y_p原创 2022-06-21 15:19:25 · 190 阅读 · 0 评论 -
np.where小记
data = pd.DataFrame([['小黑',19,80,100],['小萱',76,73,90],['阿黄',59,98,96]]) data 好了,我们要为他们的成绩打标签,分别是优秀(90-100),良(70-89),及格(60-69),待及格(0-59),旷考 (1) 选取操作列 cols = data.columns.difference(['姓名']) cols (2)通过嵌套where进行条件判断,可不必写if else data[cols] = np.where( d原创 2021-08-25 23:25:26 · 387 阅读 · 0 评论 -
小黑数据科学成长笔记1
1.pathlib 文件目录大致如下图所示: pathlib import Path path_data = Path('../input/google-smartphone-decimeter-challenge') # 路径拼接 print('1.路径拼接结果:',path_data/'train') # 非递归获取当前目录下的指定文件路径 three_csv_paths = path_data.glob('*.csv') print('2.当前目录的csv文件目录:',list(three_csv_原创 2021-08-02 23:11:21 · 196 阅读 · 3 评论