Machine Learning / Data Mining
文章平均质量分 88
inf_zh
这个作者很懒,什么都没留下…
展开
-
深入理解FFM(一)
0. 导言1. POLY22. FM3. FFM4. 算法5. 小结6. 参考文献0. 导言最近在参加IJCAI18的pCVR预估比赛,比赛到了复赛也是真正比拼模型和算法的时候了。初赛90%的时间都在做一个勤劳的”挖掘机”,但是到了复赛,光挖特征已经无法做到很好的提升了,这时候就是拼模型了。做CTR模型的人,FFM一定是绕不过去的,因此借此机会,在这里按照论文[...原创 2018-04-30 22:52:40 · 1334 阅读 · 0 评论 -
如何利用pandas处理大数据
翻译自这篇文章当我们需要处理大数据时,如果不对数据做任何处理,可能会带来内存占用过大和运行过慢的风险。当然对于处理大数据集,类似spark之类的专业处理工具是大家的首选,但是pandas优秀的特性和简单明了的语法能极大提升数据分析的效率,因此我需要考虑如何对数据优化,使得我们能在pandas上完成更大数据量的数据分析工作。在用pandas进行数据分析时,减少内存占用简单来说就是选择合适...原创 2018-05-02 11:16:14 · 5528 阅读 · 1 评论 -
李航蓝皮书总结(一):树结构模型
一、决策树1、可以认为是定义在特征空间与类空间上的条件概率分布。 2、优点是具有可读性,训练速度快。 3、算法为:递归地,选择最优特征,根据该特征对训练数据进行分割使得对每个子数据集有一个最好的分类的过程。 4、特征选择的原则分为:信息增益(g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A)g(D, A) = H(D) - H(D|A)),信息增益比(gR(D,A)...原创 2018-05-13 21:02:42 · 1886 阅读 · 0 评论