前面有用爬虫抓取了一些简历数据,现在项目里有一个地方是要预测个人的薪资。这个需求用python来实现的话肯定会轻松很多,毕竟python有大量的计算库,php主要是web方面的。
确定了选用什么语言来写后,它们之间的对接用最省心的http协议来对接
算法原理很简单,就是用的多元线性回归来预测。
训练字段用的有:工作年限,行业,学历 目标字段:薪资
代码量还是很少的,毕竟靠的是后续调参和数据量撑起来的,但是效果还是挺不错的,预测的数据挺符合现实
不废话了,下面看代码和注释,还是很简单的:
首先是训练模型的代码:
import pandas as pd
import pickle
from sklearn.preprocessing import LabelEncoder as LE
from sklearn.linear_model import LinearRegression as LR
# 读取数据
train = pd.read_csv('./salary.csv')
# 数据预处理
# 去除空值
train.dropna(axis=0,how='any',inplace=True)
# 月薪分类处理为连续
def wage_cate(wage):
if wage <= 61:
return wage - 55
elif 61 < wag