大数据理论课（第九节----复习布尔序列、学习svm模型）

最新推荐文章于 2022-11-06 16:33:02 发布

国民小跟班

最新推荐文章于 2022-11-06 16:33:02 发布

阅读量184

点赞数

分类专栏： # 3.大数据理论课文章标签：大数据 python

本文链接：https://blog.csdn.net/jjsjsjjdj/article/details/103377713

版权

3.大数据理论课专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、复习关于布尔序列在数据清洗中的应用P150

import numpy as np
import pandas as pd
detail=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\detail.csv",encoding="GB18030")
ser1=detail["counts"]
x1=ser1.mean()-3*ser1.std()>ser1
x2=ser1.mean()+3*ser1.std()<ser1

boolind=x1|x2
boolind

二、P188 任务6.3 svm模型的使用

import numpy as np
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.model_selection  import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC


ablone=pd.read_csv(r"G:\大数据实验数据库\4.Python数据分析与应用\第6章\任务程序\data\abalone.data")
data=ablone.iloc[:,:8]
target=ablone.iloc[:,8]


sex=pd.get_dummies(ablone["sex"])
data=pd.concat([data,sex],axis=1)
data.drop("sex",axis=1,inplace=True)

x1,x2,y1,y2=\
train_test_split(data,target,train_size=0.8,random_state=42)

ssd=StandardScaler().fit(x1)
x1_s=ssd.transform(x1)
x2_s=ssd.transform(x2)

mysvm=SVC().fit(x1_s,y1)
pred=mysvm.predict(x2_s)

print(classification_report(y2,pred))

三、处理数据航空数据

airline_data=pd.read_csv(r"G:\大数据实验数据库\4.Python数据分析与应用\第7章\任务程序\data\air_data.csv",encoding="GB18030")
#airline_data.shape


#1.删除SUM_YR_1和SUM_YR_2为空的数据行
exp1=airline_data["SUM_YR_1"].notnull()
exp2=airline_data["SUM_YR_1"].notnull()
exp=exp1 & exp2
airnotnull=airline_data.loc[exp,:]
airnotnull.shape

#2.删除SUM_YR_1或SUM_YR_2为0且avg_discount=0的数据行
index1=airnotnull["SUM_YR_1"]!=0
index2=airnotnull["SUM_YR_2"]!=0
index3=airnotnull["SEG_KM_SUM"]>0& (airnotnull["avg_discount"]!=0)
airline=airnotnull[(index1|index2)&index3]
airline.shape

国民小跟班

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据理论课（第九节----复习布尔序列、学习svm模型）

一、复习关于布尔序列在数据清洗中的应用P150import numpy as npimport pandas as pddetail=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\detail.csv",encoding="GB18030")ser1=detail["counts"]x1=ser1.mean()-3*ser1.std()>ser1...
复制链接

扫一扫