Kaggle3- pandas(2)

# 设置一次最多显示几行
pd.set_option("display.max_rows", 5)
1.Grouping
# 分组后并且查看组内的数量
reviews.groupby('points').points.count()
points
80     397
81     692
      ... 
99      33
100     19
# 分组后查看,查看组内的最小值
reviews.groupby('points').price.min()
points
80      5.0
81      5.0
       ... 
99     44.0
100    80.0

# 查看每个酒坊的地一个酒  --> 相当与返回了许多的DataFrame
reviews.groupby('winery').apply(lambda df: df.title.iloc[0])

# 挑选出每个国家中每个省中评分最高的酒(分了两次组)  国家在前,省份在后

reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

# 值得一提的是,他允许你同时使用多个函数,来方便我们得统计

reviews.groupby(['country']).price.agg([len, min, max])

             len        min    max
country            
Argentina    3800.0    4.0    230.0
Armenia      2.0       14.0   15.0
Australia    2329.0    5.0    850.0
Austria      3345.0    7.0    1100.0

 # 对数据重置索引  ----> 默认保留以前的下标

countries_reviewed.reset_index()

Sort

# 以那一列为标准,进行排序  ---> 默认为从小到大   ascending=True

countries_reviewed.sort_values(by='len')

# 以两列为标准

countries_reviewed.sort_values(by=['country', 'len'])

 

# 做题

best_rating_per_price = reviews.groupby('price')['points'].max().sort_index()

 --------------->   先按‘price'分组,然后挑选出points最大的来,最后在从小到大排序

price_extremes = reviews.groupby('variety').price.agg([min,max])

 --------------->   先按‘variety'分组,返回每组的最大值和最小值

country_variety_counts = reviews.groupby(['country','variety']).title.count().sort_values(ascending=False)

---------------->   先按国家和种类分组,然后计算每个酒的数量,最后逆序排序

 

Data types and missing data reference

# 查看某一行的格式

reviews.price.dtype

# 转换格式

reviews.points.astype('float64')

# 把国家是空的行挑出来

reviews[reviews.country.isnull()]    

# 将NAN的值进行填充

reviews.region_2.fillna("1")

# 对某列得特定值进行替换

reviews.taster_name.replace("@kerinokeefe", "@kerino")

# 填充后对每个值计数

reviews.region_1.fillna('Unknow').value_counts()

 

# 对数据进行重命名

reviews.rename(columns={'points': 'score'})

# 第二种方式

reviews.rename(index={0: 'firstEntry', 1: 'secondEntry'})

# 重命名一个轴

reviews.rename_axis('wines', axis='rows')

 

# 最简单的合并方式

pd.concat([canadian_youtube, british_youtube])

#  另一个合成的方式 由于有相同的列名 ,所以lsuffix 加以区分

left.join(right, lsuffix='_CAN', rsuffix='_UK')

 

 

 

 

转载于:https://www.cnblogs.com/liu247/p/11115348.html

以下是使用Python和Keras库来解决Kaggle Digit Recognizer比赛的代码示例: 首先,导入必要的库: ```python import pandas as pd import numpy as np from keras.models import Sequential from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPool2D from keras.optimizers import RMSprop from keras.preprocessing.image import ImageDataGenerator from sklearn.model_selection import train_test_split ``` 然后,读取和处理训练数据和测试数据: ```python train_data = pd.read_csv('train.csv') test_data = pd.read_csv('test.csv') # 将数据分成输入和输出 X_train = train_data.drop(['label'], axis=1) y_train = train_data['label'] # 将输入数据重塑为28x28像素 X_train = X_train.values.reshape(-1, 28, 28, 1) test_data = test_data.values.reshape(-1, 28, 28, 1) # 将像素值转换为浮点数并归一化 X_train = X_train.astype('float32') / 255 test_data = test_data.astype('float32') / 255 # 将输出数据转换为独热编码 y_train = pd.get_dummies(y_train).values ``` 接着,将数据分成训练集和验证集,设置数据增强器并构建卷积神经网络模型: ```python # 将数据分成训练集和验证集 X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.1) # 设置数据增强器 datagen = ImageDataGenerator( rotation_range=10, zoom_range = 0.1, width_shift_range=0.1, height_shift_range=0.1) # 构建卷积神经网络模型 model = Sequential() model.add(Conv2D(filters=32, kernel_size=(5,5), padding='Same', activation='relu', input_shape=(28,28,1))) model.add(Conv2D(filters=32, kernel_size=(5,5), padding='Same', activation='relu')) model.add(MaxPool2D(pool_size=(2,2))) model.add(Dropout(0.25)) model.add(Conv2D(filters=64, kernel_size=(3,3), padding='Same', activation='relu')) model.add(Conv2D(filters=64, kernel_size=(3,3), padding='Same', activation='relu')) model.add(MaxPool2D(pool_size=(2,2), strides=(2,2))) model.add(Dropout(0.25)) model.add(Flatten()) model.add(Dense(256, activation="relu")) model.add(Dropout(0.5)) model.add(Dense(10, activation="softmax")) # 定义优化器和损失函数 optimizer = RMSprop(lr=0.001, rho=0.9, epsilon=1e-08, decay=0.0) model.compile(optimizer=optimizer, loss="categorical_crossentropy", metrics=["accuracy"]) ``` 最后,使用训练集和验证集来训练和评估模型,并对测试数据进行预测: ```python # 训练模型 history = model.fit_generator(datagen.flow(X_train, y_train, batch_size=64), epochs=30, validation_data=(X_val, y_val), verbose=2) # 在验证集上评估模型 score = model.evaluate(X_val, y_val, verbose=0) print("Validation loss:", score[0]) print("Validation accuracy:", score[1]) # 对测试数据进行预测 predictions = model.predict(test_data) ``` 这就是一个简单的使用卷积神经网络和数据增强器来解决Kaggle Digit Recognizer比赛的代码示例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值