python数据分析师工资待遇_预测python数据分析师的工资-CSDN博客

前两个博客分别获得信息与python数据相关分析牵引钩(1。将工资,首先导入模块,读取文件在此之前,不仅训练数据文件,还一套自制的测试数据文件。importpandas一样pdimportnumpy plttrain_file = \因为它的分散分布,许多值只有1的数量。为了不引起过度的错误,根据其分布可分为[5 k, 5 k - 10 k,时10 k-20k 20 k-30k 30 k-40k以上40 k)。为了方便我们的分析,每个工资范围的中值和分裂我们指定的范围。工资= train_data[\u2018工资\u2019].unique() #得到不同的工资薪水insalarys值:#分裂\u201D\u2014\u2014\u201C显示和删除'k\u2019,将两端的值转换成整数min_sa = int ((\u201C-\u201D) [0] [1]): int max_sa =((\u201C-\u201D)[1][1]): #找中位数median_sa = (min_sa + max_sa) \/ 2 #来判断其价值,将它划分为指定范围如果median_sa < 5: train_(工资、30 k-40k,原地= True)其他:train_(工资、40 k以上,原地= True)处理完成后,我们可以提取\u201C工资\u201D分别作为训练集的标签y_train = train_(\u201C工资\u201D)。

将变量转换为分类变量转换成数值表达式。由于数值变量,变量不是在训练计算机不能认出他们,所以他们需要转换。用数字表达分类时,我们应注意,本身的意义大小,所以随机数字的使用将导致麻烦以后学习模型。我们可以使用一个热的方法来表达范畴。熊猫有get_dummie年代方法,你可以做一个炎热的一次点击。根据我的理解这是一个炎热的解释:例如,数据的教育需求有'college\u201D、\u201C本科生\u201D、\u201C硕士\u201D和'unlimited\u201D。但数据(\u201C教育需求\u201D)= =\u201C本科\u201D,这样他可以用字典来表达{\u201C大学\u201D:0,\u201C本科\u201D:1、\u201C大师\u201D:0,\u201C无限\u201D:0},使用向量表示为(0,1,0,0)。

data = ((train_data test_data)轴= 0)dummied__dummies(数据)dummied_()为了更好地理解一个炎热,显示处理结果,结果是这样的:当然,你也可以用其他的方法,如用数字代替不同的价值观,也是可能的。从过去的视觉分析,没有缺失值数据集。为了走过这个过程,确保正确性,让我们再来看看是否有缺失值。.sum dummied_ () () .sort_values(升序= False) .head(10)好,好,没有缺失值。这些值是相对简单的,不需要做太多的工作,但你仍然要首先单独的训练集和测试集。X_train = dummied_data [: train_ [0]]。

值3。选择参数1,DecisionTree(决策树)importDecisionTreeClassifierfrom _selection importcross_val_scorefeatures_scores = [] max_features = (。1,2,3,4,5,6,7,8,。9]max_feature inmax_features: clf = DecisionTreeClassifier (max_features = max_feature) features_score = cross_val_score (clf、X_train y_train,简历= 5)features_ ((features_score)) (max_features features_scores)这个过程主要是获取参数,使模型更好的通过交叉验证。

Emmm\u2026\u2026我觉得这有点普通,但是我应该检查它在线。哈哈。然后我们得到参数和值之间的关系如下图所示:可以看出,当max_features =达到最大时,有可能。2. 简单了解合奏(整体算法)集成学习指的是使用多个分类器预测数据集,从而提高整个分类器的泛化能力。,sklearn AdaBoostClassifier(自适应提升)将用于学习多个分类器通过改变训练样本的权重,这些分类器和线性结合提高泛化性能。从importAdaBoostClassifiern_scores = [] estimator_nums =[5、10、15、20、25、30、35岁,40岁)为estimator_num inestimator_nums: clf = AdaBoostClassifier (n_estimators = estimator_num base_estimator = dtc) n_score, crossc_val, Xtrain_core(简历= 5)n_ ((n_score)) (estimator_nums n_scores)估计= 20,分数是最高的,也许,尽管它是没多大区别的得分值一个决策树,总体情况已经有所改善。

在选择参数建立模型,该模型可以建立。dtc = DecisionTreeClassifier (max_) abc = AdaBoostClassifier (n_estimators = 20) #培训(X_train y_train) (X_train y_train) #预测y_dtc = (X_test) y_abc = (X_test) test_data[的薪水(单决策树)')= y_dtctest_data[的薪水(提高)]= y_abc至于结果,预测是不可能的完美,和不同的模型将不同的结果,更不用说预测结果是否符合常识。它只是作为一个小项目,具体的代码是: