机器学习
文章平均质量分 97
Python spark与机器学习
搜索与推荐Wiki
这个作者很懒,什么都没留下…
展开
-
Kaggle宝典|使用Python进行全面的数据探索
算法工程师的日常工作中基础最多的便是数据,但是大多数的算法工程师在使用数据过程中,最缺少的还是对数据的整体把控和分析,更多靠的是业务经验。但是严谨的算法工程师在建模之前是需要对数据进行探索和分析的,以便于在建模过程中能给更快的做出更优的模型。生活中最苦难的事情就是了解自己,建模过程中最苦难的事是了解数据!了解数据是一件非常困难的事情,且非常耗时,因此从事数据科学很容易忽略前期的数据了解,而直接对数据进行应用。本文是一篇非完整的翻译文(在个人理解的基础上进行翻译,个人水平有限,如果文章有误,欢迎在评论.翻译 2020-07-11 11:30:37 · 971 阅读 · 0 评论 -
用户网络行为画像知识点纪要
用户画像在推荐系统中扮演着重要的角色,这篇文章主要是阅读《用户网络行为画像》一书的读书摘要,该书较老,感觉更加适合产品经理或者不懂推荐的人看,如果读者本身就是一个推荐从业者的话,只需要看书的前半部分,对用户画像有个本质的理解即可,后半部分可忽略。可以在京东或者当当上购买纸质版图书,也可以购买京东上的电子版,如果想要获取免费的电子版,加我的微信号,备注【book】即可获取用户描述分为三种情况用户画像(User Portrait),更倾向于对同一类用户进行不同维度的刻画用户角色(User .原创 2020-06-10 17:15:17 · 1067 阅读 · 0 评论 -
社区划分-PageRank算法的解析与Python实现
一、什么是pagerankPageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分...原创 2015-08-12 14:28:29 · 16825 阅读 · 5 评论 -
线性模型篇之SVM数学公式推导
转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer公众号:数据与算法联盟支持向量机(Support Vector Machine,SVM)是一个经典两类分类算法,其找到的分割超平面具有更好的鲁棒性,因此广泛使用在很多任务上,并表...原创 2019-04-21 00:17:00 · 2908 阅读 · 0 评论 -
线性模型篇之感知机(PLA)数学公式推导
感知机(Perceptron)是一种广泛使用的线性分类器,相当于最简单的人工神经网络,只有一个神经元。其全称是PLA(Perceptron Linear Algorithm),线性感知机算法。感知机是对生物神经元的简单数学模型,有与生物神经元相对应的部件,比如权重(突触)、偏置(阈值)及激活函数(细胞体),输出值为 +1 或者 -1。原创 2019-04-16 19:13:32 · 4151 阅读 · 1 评论 -
线性模型篇之softmax数学公式推导
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamerSoftmax回归也称多项(multinomial)或者多类(multi-class)的Logistic回归,是Logis...原创 2019-04-10 07:24:46 · 3719 阅读 · 0 评论 -
线性模型篇之Logistic Regression数学公式推导
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer两分类与多分类两类分类(Binary Classification)类别标签y只有两种取值,通常设为{0,1}线性...原创 2019-04-02 22:31:51 · 2415 阅读 · 0 评论 -
不同分类标准下的机器学习算法分类
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer机器学习算法可以按照不同的标准进行分类。比如按函数f(X)的不同,机器学习算法可以分为线性模型和非线性模型;按照学习准则的...原创 2019-03-26 17:43:37 · 2948 阅读 · 0 评论 -
从线性回归看偏差-方差分解(Bias-Variance Decomposition)
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer概述对于数字序列1,3,5,7,?,正常情况下大家脑海里蹦出的是9,但是217314也是其一个解9对应的数学公式为f(...原创 2019-03-25 23:18:55 · 6483 阅读 · 0 评论 -
排序模型训练中过程中的损失函数,盘它!
转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer公众号:搜索与推荐Wiki个人网站:http://thinkgamer.github.io损失函数是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值...原创 2019-03-12 23:57:01 · 8058 阅读 · 0 评论 -
基于TF-IDF算法的短标题关键词提取
转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer扫一扫 关注微信公众号!号主 专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,...原创 2019-01-03 13:27:48 · 5284 阅读 · 6 评论 -
有监督学习算法的集成学习(Ensemble Learning)介绍
转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表...原创 2019-01-03 13:14:38 · 2010 阅读 · 0 评论 -
多分类逻辑回归(Multinomial Logistic Regression)
前言分类从结果的数量上可以简单的划分为:二分类(Binary Classification) 多分类(Multinomial Classification)。其中二分类是最常见且使用最多的分类场景,解决二分类的算法有很多,比如:基本的KNN、贝叶斯、SVM Online Ranking中用来做二分类的包括FM、FFM、GBDT、LR、XGBoost等多分类中比如:改进版...原创 2018-12-22 15:53:10 · 51876 阅读 · 3 评论 -
吴恩达《Machine Learning Yearning》中文版!
吴恩达老师在离开百度之后创建了deplearning.ai,在AI研究的道路上从未停下脚步,在其网站上不仅更新了AI课程,还有最新力作《Machine Learning Yearning》,目前该书的中文版也已经问世! ...原创 2018-10-28 10:44:44 · 4679 阅读 · 0 评论 -
商品人气分模型
【转自:https://zhuanlan.zhihu.com/p/35512064】在电商平台中,量化每个商品的静态质量及受欢迎的程度有着重要的意义。我们把这个量化值称之为商品人气分。商品人气分在搜索排序、个性化推荐排序及推荐候选集截断、竞价广告系统中都有着重要的应用。商品人气分受哪些因素的影响,以及这些因素最终如何共同决定商品人气分值?本文总结了一个实际系统中人气分模型的构建过程,从特征...转载 2018-06-19 21:09:59 · 4210 阅读 · 0 评论 -
TensorFlow的逻辑回归实现
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 逻辑回归我们都知道是用来进行二分类处理的,里边经常用到的阶跃函数是海维塞得阶跃函数(Sig...原创 2018-04-28 02:08:02 · 3980 阅读 · 0 评论 -
回归分析之逻辑回归-Logistic Regression
打开微信扫一扫,关注公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer回归分析之理论篇 回归分析之线性回归(N元线性回归) 回归分析之Sklearn实现电力预...原创 2018-04-28 01:45:42 · 6768 阅读 · 0 评论 -
机器学习中的AUC理解
转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 最近在做GBDT模型,里边用到胡模型评价方法就是AUC,刚好趁此机会,好好学习一下。混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指...原创 2018-04-15 02:51:19 · 5605 阅读 · 1 评论 -
梯度提升决策树-GBDT(Gradient Boosting Decision Tree)
转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 研究GBDT的背景是业务中使用到了该模型,用于做推荐场景,当然这里就引出了GBDT的一个应用场景-回归,他的另外一个应用场景便是分类,接下来我会从以下几个方面去学习...原创 2018-04-12 00:43:51 · 7644 阅读 · 0 评论 -
Softmax Regression
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上...原创 2018-03-29 08:19:33 · 1914 阅读 · 0 评论 -
推荐系统的一些思考
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 推荐系统一直以来都是电商网站必不可少的一项,在提升用户转化,增加GMV方面可谓功不可...原创 2018-03-26 05:55:06 · 2213 阅读 · 0 评论 -
推荐算法的回顾总结
之前看过一段时间协同过滤的推荐算法,当时理解并不深刻,对于其浅显的理解是从海量数据中挖掘出小部分与你品味相同的用户,协同过滤分为基于用户的和基于物品的。原创 2017-07-05 01:13:18 · 9623 阅读 · 4 评论 -
MachingLearning中的距离和相似性计算以及python实现
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言写这篇文章的目的不是说摘抄网上其他人的总结,刚才最近在看这方面的东西,为了让自己能够实际的去感受下...原创 2017-07-16 12:14:54 · 8769 阅读 · 6 评论 -
K-means 聚类算法的理解与案例实战
工作之后,发现对算法和技术的理解和上学时学习是不一样的,当时也整理了几篇关于k-means聚类的文章,但是现在看起来比较苍白和空洞,于是打算带着重新学习的态度对以往学习过或者见过的一些机器学习算法进行温习和总结,写的不足之处还望路过大神指点一二。原创 2017-07-25 23:41:40 · 15928 阅读 · 31 评论 -
回归分析之理论篇
2015年的机器学习博客其实都是看《机器学习实战》这本书时学到的,说实话当时也是知其然,不知其所以然,以至于对其理解不深刻,好多细节和理论知识都搞的是乱七八糟,自从工作之后再去看一个算法,思考的比之前多了点,查看资料也比之前多了点,生怕理解错误,影响其他人,当然在理解的程度上还是不够深刻,这也是一个学习的过程吧,记录一下,欢迎指正。原创 2017-09-17 08:10:07 · 4471 阅读 · 0 评论 -
几种距离计算公式在数据挖掘中的应用场景分析
本文涉及以下几种距离计算公式的分析,参考资料为《面向程序员的数据挖掘指南》- 曼哈顿距离- 欧几里得距离- 闵可夫斯基距离- 皮尔逊相关系数- 余弦相似度原创 2017-09-20 10:23:44 · 8147 阅读 · 0 评论 -
回归分析之线性回归(N元线性回归)
在上一篇文章中我们介绍了 回归分析之理论篇,在其中我们有聊到线性回归和非线性回归,包括广义线性回归,这一篇文章我们来聊下回归分析中的线性回归。原创 2017-09-29 16:45:01 · 3082 阅读 · 0 评论 -
回归分析之Sklearn实现电力预测
使用pandas读取数据,加载到sklearn的线性回归函数中,进行模型训练,预测,并对最终结果进行画图展示。原创 2017-11-07 13:39:13 · 6744 阅读 · 1 评论 -
《机器学习实战》Logistic回归算法(1)
转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer=================================================================《机器学习实战》系列博客是博主阅读《机器学习...原创 2016-04-25 00:13:44 · 21544 阅读 · 3 评论 -
《推荐系统》基于标签的用户推荐系统
打开微信扫一扫,关注微信公众号【搜索与推荐Wiki】转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkg...原创 2016-06-16 11:17:30 · 41931 阅读 · 15 评论 -
梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降
在机器学习领域,体梯度下降算法分为三种- 批量梯度下降算法(BGD,Batch gradient descent algorithm)- 随机梯度下降算法(SGD,Stochastic gradient descent algorithm)- 小批量梯度下降算法(MBGD,Mini-batch gradient descent algorithm)原创 2017-12-14 19:23:10 · 4590 阅读 · 0 评论 -
梯度算法之梯度上升和梯度下降
第一次看见随机梯度上升算法是看《机器学习实战》这本书,当时也是一知半解,只是大概知道和高等数学中的函数求导有一定的关系。下边我们就好好研究下随机梯度上升(下降)和梯度上升(下降)。原创 2017-12-13 22:48:02 · 16884 阅读 · 3 评论 -
《机器学习实战》二分-kMeans算法(二分K均值聚类)
=====================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法 算法实现均采用pythongithub 源码同步:https...原创 2015-10-07 15:32:34 · 17699 阅读 · 6 评论 -
《推荐系统》基于图的推荐算法
1:概述2:原理简介3:代码实现一:概述 基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式 在研究基于图的模型之前,首先需要将用户的行为数据,表示成图的形式,下面我们讨论的用户行为数据是用二元数组组成的,其中每个二元组原创 2016-06-16 20:57:32 · 20880 阅读 · 8 评论 -
Python分析和实现基于用户和Item的协同过滤算法
打开微信扫一扫,关注《搜索与推荐Wiki》1:协同过滤算法简介2:协同过滤算法的核心3:协同过滤算法的应用方式4:基于用户的协同过滤算法实现5:基于物品的协同过滤算法实现一:协同过滤算法简介 关于协同过滤的...原创 2016-05-30 12:08:02 · 58813 阅读 · 54 评论 -
《机器学习实战》使用Apriori算法和FP-growth算法进行关联分析(Python版)
1:关联分析2:Apriori算法和FP-growth算法原理3:使用Apriori算法发现频繁项集4:使用FP-growth高效发现频繁项集5:实例:从新闻站点点击流中挖掘新闻报道以下程序用到的源代码下载地址:GitHub一:关联分析1:相关概念关联分析(association analysis):从大规模数据集中寻找商品的隐含关系项集 (itemse原创 2016-05-09 19:29:27 · 30977 阅读 · 24 评论 -
《机器学习实战》预测数值型数据-回归(Regression)
回归的一般方法:(1)收集数据:采用任意方法收集数据(2)准备数据:回归需要数值型数据,标称型数据将被转化成二值型数据(3)分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线在图上作为对比(4)训练算法:求得回归系数(5)测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果(6)使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续性数据而不仅仅是离散的类别标签github原创 2016-05-14 18:33:14 · 15074 阅读 · 6 评论 -
《机器学习实战》AdaBoost算法的分析与实现
===================================================================== 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法 github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Py原创 2016-05-11 10:41:52 · 10246 阅读 · 3 评论 -
《机器学习实战》利用PCA来简化数据
===================================================================== 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法 github 源码同步:https://github.com/Thinkgamer/Machine-Learning-Wit原创 2016-05-15 19:08:18 · 6474 阅读 · 3 评论 -
《机器学习实战》Logisic回归算法(2)之从疝气病症预测病马的死亡率
=====================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法 算法实现均采用pythongithub 源码同...原创 2016-04-25 15:03:18 · 7159 阅读 · 0 评论