自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 2021-04-17

经过了一周多对数据集的研究,以及对项目本身的理解,终于在4月15日将数据集的处理基本结束。 首先,说说现阶段我对于项目的理解,经过这两周的上手处理,目前对于项目有了更深一步的理解。 这是目前我对项目理解的简图 数据集图: 简历表 简历描述表 table1_user: 字段 字段说明 user_id 用户标识 live_city 现居住地 desire_city 期望工作城市 desire_industry 期望行业 desire_jd_type 期望职类 de

2021-04-17 17:11:46 242 1

原创 tfidf初步成果

我们小组要做的是人岗智能匹配系统,而在匹配之前,最重要的工作就是获取一个人的基本信息。所以,为了让每个人的信息可以更简单地导入程序,我们需要对简历进行关键词的提取。而关键词提取这一块最常用的算法便是tfidf。这个算法可以得到每个词在文章中的权重。 tfidf定义: tf是词频,代表了某个词在文章中出现的次数。 idf是逆文档频率,表示一个词在所有文章中出现的频率。 而tfidf是将一个词的tf值与idf值进行乘法,以此来获得一个词在该文本中的权重。 文本处理的实现: 因为tfidf算法是对词进行

2021-04-02 10:03:02 146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除