DataFrame、Series练习题——租房数据预处理


To 大数据的友友 :代码慢慢堆 ~ 终究会起飞 ~ Except Ctrl+V ~ Salute!


从字典dict构建Series

描述

从字典dict构建Series参考输出示例输出。输出如下

a    9
b    8
c    7
d    6
dtype: int64
<class 'pandas.core.series.Series'>

代码及运行结果

import pandas as pd
d = {"a":9,"b":8,"c":7,"d":6}
a_Series = pd.Series(d)
print(a_Series)
print(type(a_Series))
a    9
b    8
c    7
d    6
dtype: int64
<class 'pandas.core.series.Series'>

进程已结束,退出代码为 0

用pandas和numpy分析药店的营业数据

以下是某连锁药店销售数据,请使用numpy、pandas相关做分析。要求如下:‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

序号药名销量价格分店
1双黄连口服液8920四季青分店
2莲花清瘟胶囊4521四季青分店
3藿香正气水5510四季青分店
4大山楂丸6615四季青分店
5感冒清热颗粒1325四季青分店
6六君子胶囊3940四季青分店
7生脉饮1029四季青分店
8红霉素软膏565四季青分店
9西洋参含片19300四季青分店
10清开灵口服液9932四季青分店
11十全大补胶囊8955四季青分店
12四物颗粒4545四季青分店
13双黄连口服液3020金源分店
14莲花清瘟胶囊2121金源分店
15藿香正气水5510金源分店
16大山楂丸6615金源分店
17感冒清热颗粒1325金源分店
18六君子胶囊3940金源分店
19生脉饮1029金源分店
20红霉素软膏565金源分店
21西洋参含片19300金源分店
22双黄连口服液2020花园桥分店
23莲花清瘟胶囊4521花园桥分店
24藿香正气水5810花园桥分店
25大山楂丸2915花园桥分店
26红霉素软膏65花园桥分店
27西洋参含片65300花园桥分店
28清开灵口服液3832花园桥分店
29十全大补胶囊755花园桥分店
30四物颗粒1045花园桥分店
31双黄连口服液6820人大分店
32莲花清瘟胶囊2521人大分店
33藿香正气水3510人大分店
34红霉素软膏355人大分店
35西洋参含片65300人大分店
36清开灵口服液4832人大分店
37十全大补胶囊3555人大分店
38四物颗粒3245人大分店

1.读取附件中excel文件drug_order_detail_1.xlsx中的数据。(提示:本平台读取excel文件时,函数的工作表参数为:sheet_name。)‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

2.计算所有分店的总销售额并打印输出。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

3.增加“销售额”列,其中,销售额=价格*销量‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

4.按分店统计不同分店销售额的最小值,最大值,平均值。并打印输出。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

5.输出效果如下所示,其中,*号代表具体统计的数据。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

所有分店总销售额是:*
amin amax mean
分店
人大分店 * * *
四季青分店 * * *
花园桥分店 * * *
金源分店 * * *

代码及运行结果

import pandas as pd
import numpy as np

df = pd.read_excel('space/drug_order_detai_1.xlsx')
df['销售额'] = df['价格'] * df['销量']
result = df.groupby('分店')['销售额'].agg([np.min, np.max, np.mean])
print('所有分店总销售额是:', df['销量'].sum(), sep='')
print(result)
所有分店总销售额是:1555
       amin   amax         mean
分店                             
人大分店    175  19500  3351.375000
四季青分店   280   5700  1875.666667
花园桥分店    30  19500  2660.111111
金源分店    280   5700  1192.888889

进程已结束,退出代码为 0

随机数组 — 正态分布数组

描述

1、使用numpy库random子库随机产生四门课的成绩,随机种子数取:0x1010‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

2、每门课程40个成绩,分布范围为50-100分之间,要符合正态分布规则,μ=75,σ=8,学生的成绩要为整数。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

3、用此成绩创建一个DataFrame对象,学生的学号范围为1001-1040,四门课程的列标签分别为‘A’,‘B’,‘C’,‘D’.行索引为学生的学号‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

4、输出该班级前五名学生成绩,效果如下 。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫

       A   B   C   D
1001  83  73  93  60
1002  78  74  81  83
1003  64  73  64  82
1004  82  76  83  81
1005  73  83  74  73

代码及运行结果

import numpy as np
import pandas as pd

np.random.seed(int(input(), 16))
data = np.random.normal(loc=75, scale=8, size=(40, 4))
df = pd.DataFrame(data.astype(np.intc), index=[i + 1001 for i in range(40)],
                  columns=[chr(i) for i in range(ord('A'), ord('D') + 1)])
print(df.head(5))
0x1010
       A   B   C   D
1001  83  73  93  60
1002  78  74  81  83
1003  64  73  64  82
1004  82  76  83  81
1005  73  83  74  73

进程已结束,退出代码为 0

租房数据预处理(1)

描述

1.请读取租房数据原始文件zfsj.csv,前五行数据如下图所示。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

2.请对面积(㎡)列数据进行预处理,去掉“平米”单位,并设置该列数据为np.float64数据类型。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

3.输出处理后的数据为zfsj2_after.csv文件,文件内前五行数据如下所示。

   区域        小区名称    户型  面积()  价格(/)
0  西城     万国城MOMA  1049.11    10000
1  西城    北官厅大同2号院  3045.92     5000
2  西城       和平里三苑  1140.47     5900
3  西城        菊儿大同  2147.09     8000
4  西城  交道口北二条34号院  1142.57     4400

代码

import numpy as np
import pandas as pd


file_path = open("zfsj.csv", encoding="utf-8")  
file_data = pd.read_csv(file_path)

data_mj = file_data["面积(㎡)"].tolist()
data_mj = list(data_mj[i].strip('平米') for i in range(len(data_mj)))
data_mj = np.array(data_mj, dtype=np.float64)
file_data["面积(㎡)"] = data_mj
file_data.to_csv("zfsj2_after.csv", encoding="utf-8", header=True)

租房数据预处理(2)

描述

1.请读取租房数据原始文件zfsj.csv,某5行数据如下图所示。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
2.请对"户型"列数据进行预处理,将所有的"房间"字符修改为"室"字符。例如3房间1卫修改为3室1厅。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img

3.输出处理后的数据为zfsj1_after.csv文件

代码

import pandas as pd


file_path = open("zfsj.csv", encoding="utf-8")  
file_data = pd.read_csv(file_path)

housetype_data = file_data["户型"].tolist()
housetype_data = list(housetype_data[i].replace('房间', '室') for i in range(len(housetype_data)))
file_data["户型"] = housetype_data
file_data.to_csv("zfsj1_after.csv", encoding="utf-8", header=True)

租房数据预处理(3)

描述

1.请读取租房数据原始文件zfsj_group.csv,某5行数据如下图所示。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
2.请对"区域"列数据统计,统计结果如下。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
3.统计数据结果为zfsj3_after.csv文件
代码

import pandas as pd


file_path = open("zfsj_group.csv", encoding="utf-8")     
file_data = pd.read_csv(file_path)

file_data.drop_duplicates(inplace=True)
df = pd.DataFrame(file_data.groupby('区域', as_index=False)['小区名称'].count())
df.rename(columns={'小区名称': '小区数量'}, inplace=True)
df.to_csv("zfsj3_after.csv", encoding="utf-8", header=True)

租房数据预处理(4)

描述

1.请读取租房数据原始文件zfsj_group.csv,某5行数据如下图所示。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
2.请对"户型"列数据统计,筛选出数量大于50的户型,按数量降序,输出户型数量排名的结果如下。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬
img‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

3.统计数据结果为zfsj4_after.csv文件

import numpy as np
import pandas as pd

file_path = open("zfsj_group.csv", encoding="utf-8")          
file_data = pd.read_csv(file_path)

house_array = file_data["户型"]
df = pd.DataFrame(house_array)
df['num'] = 1
df = pd.DataFrame((df.groupby('户型')['num'].agg(np.sum)))
df.sort_values('num', ascending=False, inplace=True)
df.reset_index(inplace=True)
df.columns = ['户型', '数量']
df[df['数量'] > 50].to_csv("zfsj4_after.csv", encoding="utf-8", header=True)

创建具有两层索引结构的Series对象

描述

请参考编程模板完善代码,使用嵌套列表的方式创建具有两层索引结构的Series对象mulitindex_series。通过外层索引访问内层内容。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

mulitindex_series如下:‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

运动  户外服装      1584
    运动卫衣      1342
    休闲鞋       1207
    跑步鞋       7818
    篮球鞋       7446
食品  名优白酒      6444
    零食大礼包    15230
    健康新零食     8269
dtype: int64

代码及运行结果

import pandas as pd

mulitindex_series = pd.Series([1584, 1342, 1207, 7818, 7446, 6444, 15230, 8269],
                              index=[['运动', '运动', '运动', '运动', '运动',
                                      '食品', '食品', '食品'],
                                     ['户外服装', '运动卫衣', '休闲鞋', '跑步鞋', '篮球鞋',
                                      '名优白酒', '零食大礼包', '健康新零食']])


x = input("")
print(mulitindex_series[x])
print(type(mulitindex_series[x]))
食品
名优白酒      6444
零食大礼包    15230
健康新零食     8269
dtype: int64
<class 'pandas.core.series.Series'>

运动
户外服装    1584
运动卫衣    1342
休闲鞋     1207
跑步鞋     7818
篮球鞋     7446
dtype: int64
<class 'pandas.core.series.Series'>

创建具有两层索引结构的DataFrame对象

描述

请参考编程模板完善代码,使用嵌套列表的方式创建创建具有两层索引结构的DataFrame对象mulitindex_df。通过外层索引访问内层内容。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

mulitindex_df如下:‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬

          记录条数
运动 户外服装   1584
   运动卫衣   1342
   休闲鞋    1203
   跑步鞋    7813
   篮球鞋    7456
食品 名优白酒   6644
   零食大礼包  1230
   健康新零食  8269

代码及运行结果

import pandas as pd

mulitindex_df = pd.DataFrame({'记录条数': [1584, 1342, 1203, 7813,
                                       7456, 6644, 1230, 8269]},
                             index=[['运动', '运动', '运动', '运动', '运动',
                                     '食品', '食品', '食品'],
                                    ['户外服装', '运动卫衣', '休闲鞋', '跑步鞋', '篮球鞋',
                                     '名优白酒', '零食大礼包', '健康新零食']])

x = input("")
print(mulitindex_df.loc[x, :])
print(type(mulitindex_df.loc[x, :]))
食品
       记录条数
名优白酒   6644
零食大礼包  1230
健康新零食  8269
<class 'pandas.core.frame.DataFrame'>

运动
      记录条数
户外服装  1584
运动卫衣  1342
休闲鞋   1203
跑步鞋   7813
篮球鞋   7456
<class 'pandas.core.frame.DataFrame'>







特此声明:【本文档内容源自互联网,仅用作学习交流,如有侵权,联系删除】


  • 5
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
对于Spark DataFrame数据预处理,可以采取以下步骤: 1. 数据加载:使用Spark的数据源API(如`spark.read.csv`)加载数据集,创建DataFrame对象。 2. 数据探索:使用DataFrame的方法(如`show`、`describe`、`count`等)查看数据的基本信息,了解数据的结构和内容。 3. 缺失值处理:使用DataFrame的方法(如`na.fill`、`na.drop`等)处理缺失值。可以选择填充缺失值、删除包含缺失值的/列,或者进其他自定义的处理。 4. 数据转换:根据具体需求,对数据转换。可以使用DataFrame的方法(如`select`、`withColumn`等)选择需要的列,重命名列名,进类型转换等。 5. 特征工程:根据实际业务需求,进特征提取和转换。可以使用Spark的内置特征转换器(如`Tokenizer`、`VectorAssembler`等)进文本分词、向量化等操作。 6. 数据规范化:对数据规范化处理,使得不同特征处于同一尺度上。可以使用Spark的内置特征转换器(如`StandardScaler`、`MinMaxScaler`等)进标准化、归一化等操作。 7. 数据拆分:将数据集拆分为训练集、验证集和测试集,可以使用DataFrame的方法(如`randomSplit`)按比例划分数据。 8. 其他处理:根据实际需求,进其他必要的数据处理操作,如异常值检测、重复值处理等。 以上是一般的数据预处理步骤,根据具体的业务需求和数据特点,可能需要进更多的处理操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值