大数据
文章平均质量分 94
客院载论
I'm a coder!!
展开
-
pyspark——泰坦尼克生存预测
文章目录1、使用pyspark对数据集标签分布情况进行分析;Survived分布Pclass分布SibSp分布Parch分布Fare分布Embarked分布Cabin分布2、使用pyspark对数据特征分布进行分析,并清洗数据中的缺失值、错误值和异常值;PassengerIDPclassNameSexSibSpParchFareAge(数据补全)TicketCabinEmbarked3、使用pyspark提取文本数据的TF-IDF特征;4、使用sklearn将数据集分割为训练集与测试集;5、使用pyspar原创 2021-12-15 16:41:40 · 116 阅读 · 0 评论 -
机器学习——Kaggle——Intro to Machine Learning
文章目录how Models WorkintroductionImproving the Decision TreeBasic Data ExplorationUsing Pandas to Get Familiar with Your DataInterpreting Data DescriptionYour First Machine Learning ModelSelcting Data for ModelingSelecting The Prediction TargetChoosing “Feat原创 2021-12-14 15:15:56 · 753 阅读 · 0 评论