- 博客(4)
- 收藏
- 关注
原创 【NLP】词频统计的3中方法,时间复杂度,空间复杂度对比。
#第一种办法import re from collections import Counterdef get_max_value_vl(text): text = text.lower() result = re.findall('[a-zA-Z0-9]',text) #去掉列表中的符号 count = Counter(result) #词频统计 c...
2018-04-24 09:37:13 1352
转载 panda DataFrame 数据合并,连接(merge,join,concat)
merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下[python] view plain copymerge(left, right, how='inner', on=None, left_on=None, right_...
2018-04-23 10:33:05 13639
原创 逻辑回归,决策树,随机森林,KNN,高斯贝叶斯模型在智联招聘招聘信息的机器学习表现
1.算法讲解:决策树(Decision Tree) 决策树很通俗直观哈。我们在一次次按条件将训练数据分割的过程,就是一个训练的过程。就像我们不停地问问题,不停地用排除法,最后得出结果。 如图所示,工作年龄小于2是第一个分割节点。把所有招聘信息工作年龄小于2年的放到图的左边分支,大于等于2年的放到右边。一个点产生两个分支(我们也可以设置多个分支)。然后对...
2018-04-16 17:49:50 3440 3
原创 关于智联招聘招聘信息的机器学习模型
之前发布了一个对求职信息的网页爬虫,这之后做了一些机器学习的探索,这段时间项目基本介绍了,整理一下发布出来,供大家交流。3基于逻辑回归的岗位分类器设计 3.1 ;逻辑回归算法简介假设数据集有n个独立的特征,x1到xn为样本的n个特征。常规的回归算法的目标是拟合出一个多项式函数,使得预测值与真实值的误差最小:而我们希望这样的f(x)能够具有很好的逻辑判断性质,最好是能够直接表达具有特征x的样本被分到...
2018-04-16 09:18:37 2452 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人