自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dong-技术驱动人生

大数据成长之路

  • 博客(112)
  • 收藏
  • 关注

原创 Linux启动nginx后在本地windows上使用浏览器通过ip无法访问问题

原因:nginx默认的端口号是80,Linux没开放80端口。解决办法:使用命令:service iptables stop 关闭防火墙就ok了。

2020-01-31 16:30:51 965

原创 本地远程连接服务器上的Jupyter Notebook设置方法

jupyter notebook是一个基于浏览器的python数据分析工具,使用起来非常方便,具有极强的交互方式和富文本的展示效果。jupyter是它的升级版,它的安装也非常方便,一般Anaconda安装包中会自带。安装好以后直接输入jupyter notebook便可以在浏览器中使用。但是它默认只能在本地访问,如果想把它安装在服务器上,然后在本地远程访问,则需要进行如下配置:1. 登陆远程服...

2019-11-29 19:17:45 2914

原创 个性化推荐系统之用户画像研究笔记

构建推荐系统的核心任务之一:准确地分析用户的兴趣特点(用户画像) 什么是用户画像? 用户画像简单来说是从用户产生的各种数据中挖掘和抽取用户在不同属性上的标签,如年龄、性别、职业、收入、兴趣等。完备且准确的属性标签将有力的揭示用户本质特征,因而极大地促进精准的个性化推荐。 用户画像研究概况: 目前,主流用户画像方法一般是基于机器学习尤其是有监督学习的技术。这类方...

2019-11-01 13:48:03 699

原创 常用的网络协议有哪些,分别是什么含义

ARP(Address Resolution Protocol)地址解析协议 它是用于映射计算机的物理地址和临时指定的网络地址。启动时它选择一个协议(网络层)地址,并检查这个地址是否已经有别的计算机使用,如果没有被使用,此结点被使用这个地址,如果此地址已经被别的计算机使用,正在使用此地址的计算机会通告这一信息,只有再选另一地址了。SNMP(Simple network ma...

2019-10-30 15:14:18 1877 1

原创 请聊聊你所了解的推荐系统算法

推荐系统算法如果根据推荐的依据进行划分,有如下三大类算法:一、Content-based recommenders:推荐和用户喜欢的商品相似的商品。主要是基于商品属性信息和用户画像信息的对比。核心问题是如何刻画啊商品属性和用户画像以及效用的度量。方法包括:1.1 Heuristic-based method:对于特征维度的构建,例如基于关键字提取的方法,使用IF-IDF等指标提取关键字作为...

2019-10-21 21:36:55 388

原创 怎么解决推荐系统中的冷启动问题

1、冷启动问题定义推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,对于BAT这类大公司来说,它们已经积累了大量的用户数据,不发愁。但是对于很多做纯粹推荐系统的网站或者很多在开始阶段就希望有个性化推荐应用的网站来说,如何对用户一无所知(即没有用户行为数据)的情况下进行最有效的推荐呢?这就衍生了冷启动问题。2.冷启动的分类冷启动问题主要分为3类:用户冷启动,即如何给...

2019-10-21 09:55:11 664

原创 推荐系统中使用CTR排序的f(x)的设计-传统模型篇

一.什么是ctr?ctr即点击率,在推荐系统中,通常是按照ctr来召回的内容子集进行排序,然后再结合策略进行内容的分发。二.ctr预估模型的发展ctr预估模型的公式:y=f(x),y的范围为[0, 1],表示广告被点击的概率。1.LR海量高维离散特征LR(logistics regression),是ctr预估模型的最基本的模型。也是工业界最喜爱使用的方案。LR的介绍这里就不细...

2019-10-15 14:18:24 331

原创 CTR预估中GBDT与LR融合方案

1、背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行...

2019-10-14 10:28:21 118

原创 机器学习-聚类系列-层次聚类

层次聚类 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。 作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你...

2019-09-25 17:05:27 1179

原创 矩阵分解推荐算法

作者在《协同过滤推荐算法》这篇文章中介绍了user-based和item-based协同过滤算法,这类协同过滤算法是基于邻域的算法(也称为基于内存的协同过滤算法),该算法不需要模型训练,基于非常朴素的思想就可以为用户生成推荐结果。还有一类基于隐因子(模型)的协同过滤算法也非常重要,这类算法中最重要的代表就是本节我们要讲的矩阵分解算法。矩阵分解算法是2006年Netflix推荐大赛获奖的核心算法,在...

2019-09-24 10:28:51 534

原创 学习排序 Learning to Rank:从pointwise和pairwise到listwise,经典模型与优缺点

Ranking是信息检索领域的基本问题,也是搜索引擎背后的重要组成模块。本文将对结合机器学习的ranking技术——learning2rank——做个系统整理,包括pointwise、pairwise、listwise三大类型,它们的经典模型,解决了什么问题,仍存在什么缺陷。关于一些扩展话题和具体应用,可能会在下一篇文章介绍,包括在QA领域的实践情况。 本文主要参考刘铁...

2019-09-22 17:26:33 2177 1

原创 Learning to Rank简介

本文将对L2R做一个比较深入的介绍,主要参考了刘铁岩、李航等人的几篇相关文献[1,2,3],我们将围绕以下几点来介绍L2R:现有的排序模型,为什么需要使用机器学习的方法来进行排序,L2R特征的选取,L2R训练数据的获取,L2R训练和测试,L2R算法分类和简介,L2R效果评价等。1.现有的排序模型 排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要...

2019-09-21 11:03:07 162

原创 推荐系统之CTR预估-FM算法解析

一、问题由来 在计算广告和推荐系统中,CTR预估(click-through rate)是非常重要的一个环节,判断一个商品是否进行推荐需要根据CTR预估的点击率来进行。传统的逻辑回归模型是一个广义线性模型,非常容易实现大规模实时并行处理,因此在工业界获得了广泛应用,但是线性模型的学习能力有限,不能捕获高阶特征(非线性信息),而在进行CTR预估时,除了单特征外,往往要对特征进行组合。对...

2019-09-19 10:16:42 382

原创 决策树--信息增益、信息增益比、Geni指数的理解

决策树 是表示基于特征对实例进行分类的树形结构从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。决策树算法3要素: 》特征选择 》决策树生成 》决策树剪枝关于决策树生成决策树的生成过程就是 使用满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程...

2019-09-16 17:30:44 1102

原创 优化方法总结(梯度下降法、牛顿法、拟牛顿法等)

梯度下降法梯度下降法是最简单,也是最常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解/一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方法,所以也被称为是“最速下降法”。最速下降法越接近目标值,步长越小,前进越慢。梯度下降法的搜索迭代示意图如下图所示:...

2019-09-09 11:25:25 2501

原创 梯度下降法与牛顿法的总结与比较

机器学习的本质是建立优化模型,通过优化方法,不断迭代参数向量,找到使目标函数最优的参数向量。最终建立模型。通常用到的优化方法:梯度下降方法、牛顿法、拟牛顿法等。这些优化方法的本质就是在更新参数。一:梯度下降法1、梯度下降的思想 通过搜索方向和步长来对参数进行更新。其中搜索方向是目标函数在当前位置的负梯度方向。因为这个方向是最快的下降方向。步长确定了沿着这个搜索方向下降的大小。  ...

2019-09-07 19:36:50 355

原创 导数、偏导数、方向导数、梯度、梯度下降

前言: 机器学习中的大部分问题都是优化问题,而绝大部分优化问题都可以使用梯度下降法处理,那么搞懂什么是梯度,什么是梯度下降法就非常重要!这是基础中的基础,也是必须掌握的概念! 提到梯度,就必须从导数(derivative)、偏导数(partial derivative)和方向导数(directional derivative)讲起,弄清楚这些概念,才能够正确理解为什么在优化问题中使用...

2019-09-07 16:38:11 309

原创 逻辑回归的常用面试点总结

1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。2.正式介绍如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括它!逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达...

2019-09-04 09:38:37 97

原创 动态规划从入门到精通(一)-入门篇

大三的春招,由于自己的不足,过得十分艰难。在各大公司的笔试题中,动态规划是一个必考点。突然冒出一个想法,写一个“动态规划从入门到精通”系列,与各大网友一起交流学习。学习动态规划,愚认为,就是解决以下的三个问题:什么是动态规划?什么时候要用动态规划?怎么使用动态规划?让我们一个一个来解决!1、什么是动态规划?这里参考百度百科,动态规划是求解决策过程最优化的数学方法。把多阶段过程转化...

2019-08-27 10:51:20 308

原创 Python 二进制, 十进制, 十六进制转化

十六进制 到 十进制使用 int() 函数 ,第一个参数是字符串 '0Xff' ,第二个参数是说明,这个字符串是几进制的数。 转化的结果是一个十进制数。>>> int('0xf',16)15二进制 到 十进制>>> int('10100111110',2) 1342八进制 到 十进制>>> int('1...

2019-08-26 15:21:25 841

原创 常用激活函数(激励函数)

学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。那么我们就来详细了解下激活函数方方面面的知识。本文的内容包括几个部分:什么是激活函数? 激活函数的用途(为什么需要激活函数)? 有哪些激活函数,都有什么性质和特点? 应用中如何选择合适的激活函数?什么是激活函数?神经网络中的每个神经元节点接受...

2019-08-19 10:54:26 231

原创 cnn中关于平均池化和最大池化的理解

接触到pooling主要是在用于图像处理的卷积神经网络中,但随着深层神经网络的发展,pooling相关技术在其他领域,其他结构的神经网络中也越来越受关注。一个典型的卷积神经网络结构图,其中的卷积层是对图像的一个邻域进行卷积得到图像的邻域特征,亚采样层就是使用pooling技术将小邻域内的特征点整合得到新的特征。作用pooling的结果是使得特征减少,参数减少,但pooling的目的并...

2019-08-16 14:20:32 1180

原创 卷积神经网络CNN基本概念(二)上采样 下采样

缩小图像:或称为下采样(subsampled)或降采样(downsampled)主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像:或称为上采样(upsampling)或图像插值(interpolating)主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响...

2019-08-16 11:07:32 5648 1

原创 聚类算法Kmeans如何进行优化

支持向量机、逻辑回归、决策树等经典的机器学习算法主要用户分类问题,即根据一些给定类别的样本,训练某种分类器,使得它能够对类别未知的样本进行分类,与分类问题不同,聚类是在事先不知道任何样本类别标签的情况下,通过数据之前的内在关系把样本划分为若干类别,使得同类样本之间的相似度高,不同类别之间的样本相似度低。分类问题属于监督学习的范畴,而聚类问题属于非监督学习。K均值聚类,即K-means算法是最基...

2019-08-15 10:47:52 2305

原创 Python参数传递(引用传递和值传递)

python中的函数参数既支持按值调用,也支持按引用调用。python中的变量是对象引用:变量存储的值是内存地址。当函数被调用的时候,解释器会查看传入的变量(内存地址)指的那个值的类型,如果是一个可变类型的值,就按照引用传递变量;如果是一个不可变类型的值,就考虑按照值传递变量。可变类型:列表list, 字典dict,集合set 不可变类型:字符串string,整型int,浮点型float...

2019-08-15 10:09:56 452

原创 自编码器及其相关模型

自编码器是一种无监督的神经网络模型,其核心的作用是能够学习到输入数据的深层表示。当前自编码器的主要应用有俩个方面:一是特征提取;另一个是非线性降维,用于高维数据的可视化,与流行学习关系密切。自编码器(AutoEncoder,AE):最原始的AE网络是一个三层的前馈神经网络结构,由输入层、隐藏层和输出层构成。对于二值神经网络,也就是输入层的每个神经元只能取值0或1,那么损失函数通常由...

2019-08-14 14:37:36 388

原创 数据预处理:独热编码(One-Hot Encoding)和labelEncoder标签编码

一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:  1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码  2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行on...

2019-08-12 11:21:52 788

原创 深度学习:词嵌入Embedding

词嵌入词嵌入其实就是将数据的原始表示表示成模型可处理的或者是更dense的低维表示(lz)。One-hot Embedding假设一共有m个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做One-hot embedding/encoding.一般使用的低维embedding应用中一般将物体嵌入到一个低维空间(n...

2019-08-12 10:58:02 1306

原创 深度学习中Embdeding层俩大作用的个人理解

首先,我们有一个one-hot编码的概念。假设,我们中文,一共只有10个字。。。只是假设啊,那么我们用0-9就可以表示完比如,这十个字就是“我从哪里来,要到何处去”其分别对应“0-9”,如下:我从哪里来要到何处去012345678 9那么,其实我们只用一个列表就能表示所有的对...

2019-08-12 10:10:59 911

原创 广告点击率模型中,LR,GBDT+LR,FM,DNN等模型的优点和缺点?实际效果如何?

LR优点:1.是一个很好的baseline,效果不错,当然因为效果不错,所以后续的版本想超过它,真的还是很难的。2.实际简单,有开源的工具可以直接用来训练,在线的代码也写起来比较容易。缺点:1.因为是线性模型,所以有选择交叉特征的工作,这部分工作消耗大量的精力,但往往没什么效果。一般都是wrapper方法选择,每轮可能都要进行小时级的运算,理论上要进行2^n轮(n是特征数),但...

2019-08-10 16:00:41 1576

原创 集成学习(Ensemble Learning)-bagging-boosting-stacking

基本概念元算法(meta-algorithm),所谓“三个臭皮匠,顶个诸葛亮”,在做决策时,通常会听取多个专家而不只是一个人的意见。例如,医院在遇到罕见病例时会组织多个专家进行临床会诊,共同分析病例以给出手术方案。这就是元算法背后的思路,元算法也叫集成方法(ensemble method)。集成学习(Ensemble Learning)就是使用一系列学习器进行学习,并使用某种规则将各个学习...

2019-08-08 16:56:04 680

转载 随机森林(Random Forest)算法原理

集成学习(Ensemble)思想、自助法(bootstrap)与bagging集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。首先,介绍自助法(bootstrap),这个奇怪的名字来源于文学作品 The Adventure...

2019-08-08 14:22:17 953

原创 决策树模型 ID3/C4.5/CART算法比较

一、决策树的优点和缺点优点:决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解, 决策树模型可以可视化,非常直观 应用范围广,可用于分类和回归,而且非常容易做多类别的分类 能够处理数值型和连续的样本特征缺点:很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高度、叶子节点中的最少样本数量。 学...

2019-08-07 16:04:55 203

原创 ID3、C4.5、CART三种算法优缺点比较

ID3D3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。同时这是最早提...

2019-08-07 15:50:29 9202

原创 ID3、C4.5、CART三种决策树的区别

决策树是如何工作的一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应一个属性测试;每个结点包含的样本结合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶结点的每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,也就是能够处理未见实例的决策树。ID3决策树信息熵是度量样本集合纯度最常用的...

2019-08-07 15:39:15 486

转载 python机器学习案例系列教程——决策树(ID3、C4.5、CART)

决策树简介决策树算是最好理解的分类器了。决策树就是一个多层if-else函数,就是对对象属性进行多层if-else判断,获取目标属性(类标签)的类别。由于只使用if-else对特征属性进行判断,所以一般特征属性为离散值,即使为连续值也会先进行区间离散化。在机器学习中,决策树是一个预测模型,他代表的是对象属性与类别属性之间的一种映射关系。分类决策树概念:是一种描述对实例进行分类的树形结构。...

2019-08-05 18:57:55 567

转载 机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

随机森林:理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据D...

2019-08-05 18:56:54 532

转载 决策树、Bagging、随机森林、Boosting、Adaboost、GBDT、XGBoost

决策树(Descision Tree)决策树介绍决策树基于“树”结构进行决策:- 每个“内部节点”对应于某个属性上的测试- 每个分枝对应于该测试的一种可能结果(即属性的某个取值)- 每个叶节点对应于一个“预测结果”决策树学习的三个步骤特征选择决策树的生成决策树的修剪特征选择是决定用哪个特征来划分特征空间;特征选择的准则:信息增益或信息增益比案例:预测小明今天出门...

2019-08-05 18:56:13 364

转载 随机森林,GBDT,XGBoost的对比

随机森林 RF RandomForest  随机森林的集成学习方法是bagging,但是和bagging 不同的是bagging只使用bootstrap有放回的采样样本,但随机森林即随机采样样本,也随机选择特征,因此防止过拟合能力更强,降低方差。使用的融合方法:bagging一种集成学习算法,基于bootstrap sampling 自助采样法,重复性有放回的随机采用部分样本进行训练最...

2019-08-05 18:54:40 714

原创 (window系统,ubuntu系统服务器)pycharm通过ssh连接远程服务器

1. 各种远程连接终端操作浪费时间,麻烦之前一致用putty,ssh,修改代码,或者本地修改,上传到服务器,各种不爽,现在改用xshell,但是有时候还是不方便感觉,于是自己配置了远程连接pycharm,这样不用总是到代码里修改,直接在windows(或者ubuntu)下pycharm里修改再保存就可以实现同步更新到服务器里的代码里了。2、content配置Deployment...

2019-07-10 17:16:06 1156 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除