- 博客(2)
- 收藏
- 关注
原创 2021-04-17
经过了一周多对数据集的研究,以及对项目本身的理解,终于在4月15日将数据集的处理基本结束。 首先,说说现阶段我对于项目的理解,经过这两周的上手处理,目前对于项目有了更深一步的理解。 这是目前我对项目理解的简图 数据集图: 简历表 简历描述表 table1_user: 字段 字段说明 user_id 用户标识 live_city 现居住地 desire_city 期望工作城市 desire_industry 期望行业 desire_jd_type 期望职类 de
2021-04-17 17:11:46 261 1
原创 tfidf初步成果
我们小组要做的是人岗智能匹配系统,而在匹配之前,最重要的工作就是获取一个人的基本信息。所以,为了让每个人的信息可以更简单地导入程序,我们需要对简历进行关键词的提取。而关键词提取这一块最常用的算法便是tfidf。这个算法可以得到每个词在文章中的权重。 tfidf定义: tf是词频,代表了某个词在文章中出现的次数。 idf是逆文档频率,表示一个词在所有文章中出现的频率。 而tfidf是将一个词的tf值与idf值进行乘法,以此来获得一个词在该文本中的权重。 文本处理的实现: 因为tfidf算法是对词进行
2021-04-02 10:03:02 172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人