自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 spark之自然语言处理--word2Vec

自然语言处理

2017-02-04 16:29:20 1352

原创 机器学习——防止过拟合

所谓过拟合就是由于过度学习训练样本,而导致该模型眼里容不下别的样本,从而对训练样本之外的样本接受能力差,导致模型无法具有很好的泛化能力。防止过拟合的方法有多种,上一篇文章中结构风险最小化提到的正则化项,就是为了防止模型过拟合,模型复杂度过大的一个模型修正条件。从样本上来说:增加样本的全面性和数量从模型上来说:训练模型的同时限制模型复杂度,增加1范数和2范数,如线性回归的优化岭回归从训练

2016-09-07 09:50:58 802

原创 机器学习--损失函数

介绍损失函数之前首先介绍两种风险:经验风险和结构风险       1) 经验风险最小化的策略认为,根据已知样本,求得误差最小的模型最优,即经验风险最小的模型就是最优的模型。(经验风险最小能保证模型在训练集上取得较好的效果,但当训练集较小时,训练集不能代表全体样本,从而导致模型泛化能力差),通常形式为:其中f(x)为预测结果,y为实际结果  机器学习——损失函数 > image201

2016-09-05 19:35:46 1401

原创 树模型和线性回归 在回归问题中的比较

最近使用GBRT和LR解决回归问题,总体来说发现GBRT能很快收敛,且误差mse通常比lr小。但使用过程中发现利用GBRT进行回归大部分情况的回归值都接近真实值,但也会存在一些错的很离谱的回归值,反而lr对所有的回归样例都能表现的中规中矩。举个例子:假设问题为需要评价一个淘宝店商户的价值高低,我们需要利用该淘宝店的 历史的上月pv,uv,点击,交易量,评价,好评数,星级等预测其下个月可能产生的

2016-09-04 15:26:37 5133

原创 spark 如何获得分类概率

在进行分类时,通常不仅希望知道该样本是被预测为0,1,还希望获得该样本被预测为0,1的概率 LR中:val model = new LogisticRegressionWithLBFGS().setNumClasses(2).run(trainingData)model.clearThreshold()//默认Threshold为0.5,只需通过model.cl

2016-08-04 14:04:45 3729

原创 基于决策树系列算法(ID3, C4.5, CART, Random Forest, GBDT)的分类和回归探讨

现在的r或者spark集成的机器学习包里面,基于决策树的算法都分回归或者分类。而实际这些回归可能和我们平常的理解存在一些偏差,因此写下此文一起探讨!决策树常见算法有以下几种:ID3算法主要思想是根据信息增益来进行节点分裂时的特征选择。即贪心的选取信息增益最大的特征来作为分裂依据。C4.5算法是ID3算法的改进版,用信息增益率来进行feature选择,利用二分方式

2016-07-22 17:18:53 1962

原创 lookalike 人群扩散算法

1.利用用户画像,给用户打标签,利用相同标签找到目标人群实例:美的豆浆机通过Youmi DSP进行了Look-alike人群扩展投放有米广告取得美的家电第一方消费者数据,涵盖浏览、购买行为等ID信息。通过导入Youmi DMP进行全库记录匹配,找到个体的在线历史大数据。经由人群分析模型,有米洞察到美的用户的个性倾向特征,通过标签算法挖掘,将数据库中拥有高相似画像的人群列为一类精准用户。根据

2016-07-20 18:26:15 39035

原创 lookalike 人群扩散调研

2013年3月19日,Facebook推出Lookalike Audiences,是一种「以人找人」的概念,可以根据Custom Audiences所筛选出的用户名单为参考,再筛选出「另一批用户」是与其相似的受众,让广告主可以将广告投递给此名单内的用户。第一个「人」指的是透过Custom Audiences所筛选出的用户,找到的「人」是指与其相似兴趣的另一批用户。2014年阿里妈妈推出

2016-07-20 11:02:39 6691

原创 决策树、贝叶斯、人工神经网络、K-近邻、支持向量机等常用分类算法小结

单一的分类算法:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类,HMM组合分类算法:Bagging和Boostingk-近邻(kNN,k-Nearest Neighbors)算法找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为那一类。 模型输入要求:连续值,类别型变量需进行one-hot编码,由于是

2016-07-19 18:18:15 33286 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除