数据挖掘
文章平均质量分 95
ppp8300885
这个作者很懒,什么都没留下…
展开
-
[天池智慧交通预测挑战赛]新手向的时间序列预测解决方案-前Top2%
本博客分享新人第一次参加天池比赛的实况记录,比较完整地给出了数据预处理,缺失值补全,特征分析过程以及训练和交叉验证的注意事项,适合数据挖掘新人找到解题思路,全程没有调参,没有模型融合,只凭一手简单的特征和xgboost,最后止步41/1716,基本上可以作为时间序列预测类的比赛的baseline.完整代码在Github原创 2017-09-11 16:42:59 · 24176 阅读 · 85 评论 -
[机器学习]逻辑回归公式推导及其梯度下降法的Python实现
一般来说,二项逻辑斯谛回归模型是一个二分类判别模型,由条件概率分布P(Y|X)P(Y|X)P(Y|X)表示,随机变量XXX为实数,YYY取值0或者1。我们通过比较P(Y=1|x)P(Y=1|x)P(Y=1|x)和P(Y=0|x)P(Y=0|x)P(Y=0|x)值大小来判断给定x的类别为1还是0。从线性模型推导我们先说广义的线性回归:y=wx+by=wx+by=wx+b,这里 yyy为回...原创 2018-02-09 22:43:39 · 3887 阅读 · 0 评论 -
研发工程师面试题整理
TCP, UDP区别和各自优缺TCP提供一种面向连接的、可靠的字节流服务 在一个 TCP 连接中,仅有两方进行彼此通信。广播和多播不能用于 TCP TCP使用校验和,确认和重传机制来保证可靠传输 TCP 给数据分节进行排序,并使用累积确认保证数据的顺序不变和非重复 TCP使用滑动窗口机制来实现流量控制,通过动态改变窗口的大小进行拥塞控制注意:TCP 并不能保证数据一定会被对方接收...原创 2018-02-28 15:35:10 · 5919 阅读 · 0 评论 -
机器学习和数据挖掘算法面试知识点
机器学习算法决策树(DT)ID3: 基于信息增益的大小来逐层确定分类的特征。我们知道信息量的增加能消除对事件的不确定性,因此我们每次选择信息增益大的特征作为分类特征, 表示引入此特征后,信息量增加最多,能把对事件的不确定性降为最低,墒最低。信息增益g(D,A)(互信息)由熵H(D)与条件熵H(D|A)之差算出, 条件墒H(D|A)表示在引入A特征后,D的不确定度,也就是墒的大小,我...原创 2018-04-05 10:17:19 · 1517 阅读 · 0 评论 -
从一阶线性模型到FFM
前言FFM从Linear Model开始假设我们有下图这样的推荐数据,对于第一行样本,我们用语言翻译:用户1在语境3下对物体2有一个点击行为(click=1);这里,用户(user),语境(context)和物体(item)都是特征,点击行为是label,我们要用一个模型去拟合这个label,使这个模型能够预测一个用户在某语境下对某物体的的点击率。最简单的模型为线性模型,即:y=∑i∈Cw...原创 2019-01-13 01:22:01 · 11217 阅读 · 0 评论