Python超实用小技巧
Wan7777777
天真永不消逝,浪漫至死不渝
展开
-
Python:列表追加元素or列表
往列表末尾添加一个元素或列表(append&extend) 往列表末尾添加一个新列表 append会将整个新列表加进去extend 会将新列表的元素依次加在末尾原创 2022-07-08 02:29:11 · 759 阅读 · 1 评论 -
Python超实用小技巧:数据分箱(代码及原理详解)
train['CategoricalFare'] = pd.qcut(train['Fare'], 4)# 数据分箱,分成4个箱子 目的 连续变量离散化:1~100分成4箱 为什么要分箱? 离散变量便于特征的增加和减少,便于模型快速迭代 稀疏向量内积乘法更快,计算结果便于存储,容易扩展 离散化后的特征对异常数据有很强的鲁棒性,例如,连续异常值5000可能对模型影响很大,但如果分箱后,模型影响很小 为模型引入非线性,提升模型表达能力,加大拟合...原创 2021-08-17 02:46:51 · 3352 阅读 · 0 评论 -
Python超实用小技巧:统计每列缺失值的占比
代码 def missing_percent(df): nan_percent = 100*(df.isnull().sum()/len(df)) # df.isnull().sum()统计每一列的缺失值数量 # 再除上len()得到每一列的缺失值比例——小数形式 # *100得到百分数 nan_percent = nan_percent[nan_percent > 0].sort_values() # 得到每列的缺失值的占比,升...原创 2021-08-17 02:45:09 · 5888 阅读 · 2 评论 -
Python超实用小技巧:合并数据框
把列转化为哑变量之后,拼接到数据框中 pd.concat([x, y], axis=1) x和y代表要合并的数据框 axis代表拼接方式,1代表按列拼起来 train = pd.concat([train, train_sex],axis=1)# 把两个数据框合并起来,合并方式为按列合并同样的操作不仅要预处理训练集,还要处理测试集!!!...原创 2021-08-17 02:43:15 · 3317 阅读 · 1 评论 -
Python超实用小技巧:分类变量转化为哑变量(附哑变量详解)
代码示例features = ["Pclass", "Sex", "SibSp", "Parch"]# 筛选出分类变量用来建模X = pd.get_dummies(train[features])# 把分类变量转化为哑变量哑变量详解 定义:哑变量(DummyVariable),也叫虚拟变量 目的:主要用于处理多分类变量,把不能量化的多分类变量量化,每个哑变量对模型的影响都细化,提高模型精准率 具体操作 假如“职业因素”列,共有5个分类变量:学生、农...原创 2021-08-17 02:41:24 · 7010 阅读 · 0 评论 -
Python超实用小技巧:筛选特定的行
women = train.loc[train.Sex == 'female']['Survived']# 选取性别为female的所有行,再筛选其中的一列“Survived”# print(women)原创 2021-08-17 02:36:10 · 2020 阅读 · 0 评论 -
Python超实用小技巧:删除特定的行和列
删除不需要的列train.drop(["Cabin", "Ticket", "PassengerId", "Name"], axis = 1, inplace=True)# axis = 1 表示按列删除# inplace=True是指原地操作的意思,不创建新的,直接在原数据中改变删除不需要的行index = train[train["Fare"] > 450 ].index# 获取Fare列的值大于450的行# .index获取行的行号# print(inde...原创 2021-08-17 02:34:25 · 10098 阅读 · 0 评论 -
Python超实用小技巧:添加新列——两列之间运算得到第三列
目的:表亲+近亲+自己,统计孤身一人和非孤身一人的信息 for dataset in full_data: dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1 # 家庭规模:表亲+近亲+自己原创 2021-08-17 02:32:24 · 1383 阅读 · 0 评论 -
Python超实用小技巧:统计某列的重复值
应用场景:有时候我们需要统计这一列有多少重复的值 代码 print(train["Name"].duplicated().sum())原创 2021-08-17 02:30:06 · 1723 阅读 · 0 评论 -
Python超实用小技巧:统计某列的所有值的出现次数
应用场景:我们想要获取某列数据都有哪些取值?每种取值的数量是怎样的?例如,我们想要获取【房间号】这一列的数据,一共有几个房间号?每个房间号出现了几次? 代码 print(train["Cabin"].value_counts())#.value_counts() 结果范例 C23 C25 C27 4G6 4B96 B98 4C22 C26 3F2 3 ...原创 2021-08-17 02:27:39 · 3715 阅读 · 0 评论 -
Python超实用小技巧:遍历目录和文件
通过Python来访问电脑的文件,非常好用原创 2021-08-17 02:19:54 · 206 阅读 · 0 评论