seu_yang-CSDN博客

原创 spark之自然语言处理－－word2Vec

自然语言处理

2017-02-04 16:29:20 1426

原创机器学习——防止过拟合

所谓过拟合就是由于过度学习训练样本，而导致该模型眼里容不下别的样本，从而对训练样本之外的样本接受能力差，导致模型无法具有很好的泛化能力。防止过拟合的方法有多种，上一篇文章中结构风险最小化提到的正则化项，就是为了防止模型过拟合，模型复杂度过大的一个模型修正条件。从样本上来说：增加样本的全面性和数量从模型上来说：训练模型的同时限制模型复杂度，增加1范数和2范数，如线性回归的优化岭回归从训练

2016-09-07 09:50:58 872

原创机器学习－－损失函数

介绍损失函数之前首先介绍两种风险：经验风险和结构风险 1) 经验风险最小化的策略认为，根据已知样本，求得误差最小的模型最优，即经验风险最小的模型就是最优的模型。（经验风险最小能保证模型在训练集上取得较好的效果，但当训练集较小时，训练集不能代表全体样本，从而导致模型泛化能力差），通常形式为：其中f(x)为预测结果，y为实际结果机器学习——损失函数 > image201

2016-09-05 19:35:46 1513

原创树模型和线性回归在回归问题中的比较

最近使用GBRT和LR解决回归问题，总体来说发现GBRT能很快收敛，且误差mse通常比lr小。但使用过程中发现利用GBRT进行回归大部分情况的回归值都接近真实值，但也会存在一些错的很离谱的回归值，反而lr对所有的回归样例都能表现的中规中矩。举个例子：假设问题为需要评价一个淘宝店商户的价值高低，我们需要利用该淘宝店的历史的上月pv，uv，点击，交易量，评价，好评数，星级等预测其下个月可能产生的

2016-09-04 15:26:37 5274

原创 spark 如何获得分类概率

在进行分类时，通常不仅希望知道该样本是被预测为0，1，还希望获得该样本被预测为0，1的概率 LR中：val model = new LogisticRegressionWithLBFGS().setNumClasses(2).run(trainingData)model.clearThreshold()//默认Threshold为0.5，只需通过model.cl

2016-08-04 14:04:45 3825

原创基于决策树系列算法（ID3, C4.5, CART, Random Forest, GBDT）的分类和回归探讨

现在的r或者spark集成的机器学习包里面，基于决策树的算法都分回归或者分类。而实际这些回归可能和我们平常的理解存在一些偏差，因此写下此文一起探讨！决策树常见算法有以下几种：ID3算法主要思想是根据信息增益来进行节点分裂时的特征选择。即贪心的选取信息增益最大的特征来作为分裂依据。C4.5算法是ID3算法的改进版，用信息增益率来进行feature选择，利用二分方式

2016-07-22 17:18:53 2064

原创 lookalike 人群扩散算法

1.利用用户画像，给用户打标签，利用相同标签找到目标人群实例：美的豆浆机通过Youmi DSP进行了Look-alike人群扩展投放有米广告取得美的家电第一方消费者数据，涵盖浏览、购买行为等ID信息。通过导入Youmi DMP进行全库记录匹配，找到个体的在线历史大数据。经由人群分析模型，有米洞察到美的用户的个性倾向特征，通过标签算法挖掘，将数据库中拥有高相似画像的人群列为一类精准用户。根据

2016-07-20 18:26:15 39518

原创 lookalike 人群扩散调研

2013年3月19日，Facebook推出Lookalike Audiences，是一种「以人找人」的概念，可以根据Custom Audiences所筛选出的用户名单为参考，再筛选出「另一批用户」是与其相似的受众，让广告主可以将广告投递给此名单内的用户。第一个「人」指的是透过Custom Audiences所筛选出的用户，找到的「人」是指与其相似兴趣的另一批用户。2014年阿里妈妈推出

2016-07-20 11:02:39 6918

原创决策树、贝叶斯、人工神经网络、K-近邻、支持向量机等常用分类算法小结

单一的分类算法：决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类，HMM组合分类算法：Bagging和Boostingk-近邻(kNN，k-Nearest Neighbors)算法找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为那一类。模型输入要求：连续值，类别型变量需进行one－hot编码，由于是

2016-07-19 18:18:15 34130 1