数据挖掘比赛
CC丶Z
迷失不要紧,关键是我们得在清醒后找到自己的定位和要前进的方向。
不过,你也要允许自己走上曲折的路。因为“走捷径”,会错过很多事情。
展开
-
TF-IDF原理
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是, 一...转载 2018-04-15 12:33:37 · 290 阅读 · 0 评论 -
二分类问题中候选集和覆盖率的概念
最近在学习天池比赛:商场中精确定位用户所在店铺,该比赛作为新手刚开始我想到了多分类,经过学习一些人的想法后得知该问题转化为二分类去做会减少计算量同时准确度也会提升,在学习过程中接触到了“候选集”、“覆盖率”两个概念,经过查询很多资料找到相关解释,写在下面供以后查阅。赛题类型从领域归属划分来看:电商推荐,广告点击率预估,销量预估,贷款违约判定,癌症检测等从任务目标划分来看:回归,分类,排...转载 2018-04-12 16:09:53 · 3578 阅读 · 0 评论 -
数据挖掘OneHotEncoder独热编码和LabelEncoder标签编码
学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。 首先了解机器学习中的特征类别:连续型特征和离散型特征。 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w2*...转载 2018-04-19 21:20:04 · 7967 阅读 · 1 评论