![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法
文章平均质量分 72
小小的天和蜗牛
一门心思搞技术!
展开
-
决策树
1、决策树简单认识决策树也是一种树模型,符合树的基本特征,由树根、树干、树枝、树叶四部分组成。决策树是一种监督学习算法,英文Decision Tree决策树的思想很朴素,类似于if-else的判断,可以很好的解释算法的训练流程2、构建算法的三个步骤2.1 构建决策树的三个步骤特征选择:选取具有较强分类能力的特征决策树生成:典型算法ID3:采用信息增益作为特征选择度量C4.5:采用信息增益率作为特征...原创 2018-07-13 22:04:06 · 538 阅读 · 0 评论 -
推荐系统之---偏好数据构建
1.用户行为分类根据用户操作的复杂度,将用户的操作分为四类;一类:查看、停留、投票、评论、收藏、关注;二类:转发;三类:加入购物车:四类:购买;2.类别权重一类:10%二类:20%三类:30%四类:40%3.创建原始数据表/*Table structure for table `user_product_base` */DROP TABLE IF EXISTS ...原创 2019-04-19 15:43:52 · 520 阅读 · 0 评论 -
树类算法之---lightGBM使用与调参
1. 说明官方文献说明,想深入研究的可以戳进去进一步学习lightGBM是一个基于树模型的分布式Boosting算法,该算法是有微软开源贡献,说到tree-based模型一般都会想到XGBOOST算法,毕竟也是曾经的大杀器,那下面就把这两个算法进行一些对比。2.Xgboost的优缺点优点:(不详细说了,默认有树模型基础)1.Xgboost利用的二阶梯度,相对于lightGBM在进行节点...原创 2019-04-23 16:34:15 · 9444 阅读 · 3 评论 -
推荐系统之---经验10坑整理
1.隐式反馈比显式反馈要爽所谓隐式反馈,就是用户发出这些行为时并不是为了表达兴趣/态度,只是在正常使用产品而已,反之,显式反馈就是用户在做这个操作时就是要表达自己的态度,如评分,投赞成/反对票。Xavier Amatriain列举了隐式反馈的以下好处:1.数据比显示反馈更加稠密。诚然,评分数据总体来说是很稀疏的。之前的Netflix的百万美元挑战赛,给出的数据稀疏度大概是1.2%,毕竟评分...转载 2019-04-18 15:40:50 · 1424 阅读 · 0 评论 -
NLP之---gensim库word2vec的使用经验
1.说明在本篇中不介绍关于word2vec的算法原理,仅仅分析关于gensim库中word2vec的使用经验。2.安装pip install gensim3.训练模型from gensim.models import Word2Vecmodel = Word2Vec(sentence,sg=1,size = 100,window = 5,min_count = 5,negative ...原创 2019-04-15 10:07:21 · 1449 阅读 · 0 评论 -
树类算法之--XGBoost算法原理&代码实战
1.算法原理介绍1.1Xgboost简介xgboost是Boosting算法的其中一种,Boosting算法的思想是许多弱分类器集成在一起,形成一个强分类器。以为xgboost是一种提升树模型,所以他是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是cart回归树模型。xgboost是在GBDT的基础上进行改进,使得更加强大,使用范围更大xgboost一般和sklear...原创 2019-03-26 20:11:29 · 8890 阅读 · 1 评论 -
推荐系统之---企业级平台推荐设计
前言不管是做直播推荐、电商平台推荐、视频推荐、亦或是其他平台的推荐,从技术上讲【很多东西都是想通的,也许你可以从这里借鉴到你想要的东西。】下面我会按照以下顺序开始介绍,并且这个顺序也大概是推荐架构实现的一个顺序:用户画像系统推荐召回系统推荐排序系统推荐系统评估系统如果某些同学,对某些部分已经非常熟悉了,可以直接跳过,毕竟这里只是介绍了这些系统是怎么去做的,以及在整个架构中起到了什么...原创 2019-03-30 11:48:17 · 859 阅读 · 0 评论 -
Spark之---【ML】算法库ALS简介
1. 协同过滤内容协同过滤显性反馈与隐性反馈缩放正则化参数冷启动问题2. 协同过滤协同过滤 通常用于推荐系统。 这些技术旨在填写用户项关联矩阵的缺失条目。 spark.ml 目前支持基于模型的协同过滤, 其中用户和产品由一小组可用于预测缺失条目的潜在因素描述。spark.ml 使用交替最小二乘( ALS) 算法来学习这些潜在因素。 实现中 spark.ml 包含以下参数:num...原创 2019-03-16 22:42:59 · 2909 阅读 · 0 评论 -
sklearn之--特征工程
1.什么是特征工程?在数据科学界流传着一种说法,“数据决定了模型的上限,算法决定了模型的下限”,因此在这个“说法”中,明确的表明了,只有好的数据才能够有好的模型,数据才是决定了模型的关键因素。而特征工程做的事情,简单来说,就是找到好的数据,拿给模型“吃”。下面采用一个思维导图来简单展现结构:在sklearn中包含了上面所列的大多数的方式,包括数据预处理,特征选择,降维等。首次接触到sklea...原创 2019-03-15 23:34:52 · 389 阅读 · 0 评论 -
Mac下安装lightgbm-image not found
Mac下安装lightgbm1.安装环境2.错误安装3.正确安装1.确保homebrew安装,并已经更新2.安装cmake依赖3.编译4.构建5.错误处理6.安装lightgbm7.手动配置1.安装环境系统MacOS Mojave版本10.14.2Xcode10.1$ clang -vApple LLVM version 10.0.0 (clang-1000.11....原创 2018-12-17 12:02:34 · 3751 阅读 · 8 评论 -
树类算法之---决策树Cart树Gini系数就算原理。
1.介绍ID3树与CART树的区别:ID3算法中,选择的是信息增益来进行特征选择,信息增益大的特征优先选择。而在C4.5中,选择的是信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的缺点。但是无论是ID3还是C4.5,都是基于熵的模型,里面会涉及到大量的对数运算,能不能简化一下?GINI系数的计算公式:假设有数据集D,定义GINI指数:GINI(D)=&T...原创 2019-05-23 18:16:55 · 13981 阅读 · 3 评论