自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 科大讯飞AI营销大赛 CTR预估总结

科大讯飞AI营销大赛 CTR预估背景介绍:科大讯飞AI营销云在高速发展的同时,积累了海量的广告数据和用户数据,如何有效利用这些数据去预测用户的广告点击概率,是大数据应用在精准营销中的关键问题,也是所有智能营销平台必须具备的核心技术。本次大赛提供了讯飞AI营销云的海量广告投放数据,参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率,即给定广告点击相关的广告、媒体、用户、上下文内容等信息的...

2019-01-07 13:27:43 3100 2

原创 NLP知识整理(下)

机器学习模型在完成特征抽取后,我们就将文本型数据转化成了规范的数字格式数据,可以送入机器学习模型或深度学习模型进行训练了。如果采用机器学习的方式,比较适合的模型有LR,LinearSVC, NaiveBayse,如果向量的维度不是很高很稀疏,一些树类模型如RandomForest, Xgboost, LightGBM也可以对其进行训练。深度学习模型随着近些年深度学习的发展,在计算力和数...

2019-01-07 13:23:33 412

原创 NLP知识整理(上)

数据预处理数据清洗在拿到文本后需要使用re工具库来利用正则表达式对文本进行一些数据预处理和数据清洗的操作,目的是去除脏数据,保证数据的规范性和一致性,便于后期处理。常见的操作有:①统一计量单位,如将mg,g,kg,‘克’,‘千克’统一为kg,使不同单位之间的数字可以相互比较和计算。②缩略词替换,如将’can’t’转换成’can not’。③标点处理,去除掉’,/./。/!/…'等文本...

2019-01-07 13:12:55 238

原创 理解Kaggle神器——Xgboost

题记Xgboost作为集成模型的一个代表,一直以优异的性能著称,很多Kaggle比赛的获奖者都非常偏爱使用这个模型。然而,这个模型背后的原理,却比一般的集成模型更为复杂和难以理解。 这次对Xgboost的推导过程和重点内容做一些整理,尽量通俗易懂,希望帮助大家更好地理解Xgboost。学习残差Xgboost是一个由多个基模型构成的集成模型,每一个模型都在学习上一个模型的残差。因此...

2018-11-23 01:37:28 998

原创 从极大似然的角度理解 逻辑回归

什么是极大似然估计最大似然估计就是通过已知结果去反推最大概率导致该结果的参数。极大似然估计是概率论在统计学中的应用。它提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。举个栗子,已知你面前站着一个非洲兄弟,你判断他是黑皮肤,而不是黄皮肤,因为非洲人是黑皮肤的概率最高。...

2018-11-16 03:16:31 2148 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除