自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

inf_zh

记录些机器学习,数据挖掘,统计学等技术的学习感悟和非技术的内容

  • 博客(5)
  • 收藏
  • 关注

转载 how2J学习之Java多线程

多线程即在同一时间,可以做多件事情。创建多线程有3种方式,分别是继承线程类,实现Runnable接口,匿名类。首先看看不使用多线程的情况:package charactor; import java.io.Serializable; public class Hero{ public String name; public float hp; p...

2019-01-15 10:42:58 530

原创 李航蓝皮书总结(一):树结构模型

一、决策树1、可以认为是定义在特征空间与类空间上的条件概率分布。 2、优点是具有可读性,训练速度快。 3、算法为:递归地,选择最优特征,根据该特征对训练数据进行分割使得对每个子数据集有一个最好的分类的过程。 4、特征选择的原则分为:信息增益(g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A)g(D, A) = H(D) - H(D|A)),信息增益比(gR(D,A)...

2018-05-13 21:02:42 1886

原创 如何利用pandas处理大数据

翻译自这篇文章当我们需要处理大数据时,如果不对数据做任何处理,可能会带来内存占用过大和运行过慢的风险。当然对于处理大数据集,类似spark之类的专业处理工具是大家的首选,但是pandas优秀的特性和简单明了的语法能极大提升数据分析的效率,因此我需要考虑如何对数据优化,使得我们能在pandas上完成更大数据量的数据分析工作。在用pandas进行数据分析时,减少内存占用简单来说就是选择合适...

2018-05-02 11:16:14 5528 1

原创 深入理解FFM(一)

0. 导言1. POLY22. FM3. FFM4. 算法5. 小结6. 参考文献0. 导言最近在参加IJCAI18的pCVR预估比赛,比赛到了复赛也是真正比拼模型和算法的时候了。初赛90%的时间都在做一个勤劳的”挖掘机”,但是到了复赛,光挖特征已经无法做到很好的提升了,这时候就是拼模型了。做CTR模型的人,FFM一定是绕不过去的,因此借此机会,在这里按照论文[...

2018-04-30 22:52:40 1334

原创 我的第一篇blog

五一放假没有什么事做,最近在忙着做天池的比赛,做feature engineering的过程中被搞得焦头烂额,于是想着正好趁放假学习下海量数据的处理,也为找暑期实习做准备。于是乎在网上搜搜资料,翻翻博客之类的,恰好翻到一个叫pluskid的博主,把博客从头到尾翻了个遍,一搜知乎原来是计院学长,还是MIT的PhD,Google Brain的超级大牛级人物orz,真的很佩服他不仅对每个技术问题的细节理...

2018-04-30 15:15:45 165

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除