自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 协同过滤—基于图的方法

文章目录1、概述1.1 基于路径的相似度1.2 基于随机游走的相似度 1、概述 在基于图的推荐方式中,数据可以用图的形式表示。左边的数据点表示用户的集合,右边的数据表表示物品的集合,这些点通过线连接,线上的数据是用户对物品的评分。用户到物品的路径长度可以用于预估用户对物品的评分;用户和用户(或者物...

2019-06-25 17:10:23 383 0

原创 协同过滤——基于模型的算法

文章目录1 概述1.1 基于分解的方法1.1.1 分解相似度矩阵:特征值分解1.1.2 分解评分矩阵:奇异值分解(SVD)1.1.3 SVD、SVD++、时间敏感模型1.2 基于邻域的学习方法2 SVD与LFM2.1 基本原理2.2 计算逻辑及优化目标2.3 优化方法2.4 关于SVD和LFM3、...

2019-06-25 17:07:38 3875 0

原创 协同过滤——基于邻域的算法

文章目录1、概述1.1 基于用户的协同过滤与基于物品的协同过滤的比较1.2 用户行为数据1.3 数学符号约定2、基于用户的协同过滤2.1 基本原理2.2 数学描述2.3 回归与分类3、基于物品的协同过滤3.1 基本原理3.2 数学描述3.3 哈利波特问题4、基于邻域方法的要素4.1 评分标准化4...

2019-06-25 17:04:18 707 0

原创 余弦相似度

1余弦相似度 2理论推导 3一些特征情况分析 在机器学习算法中,有各种方式衡量用户或者物品的距离或者相似度,如曼哈顿距离、欧几里得距离、Pearson相关系数、Jaccard系数等(可参考http://blog.csdn.net/lin00jian/article/details/51209715...

2017-09-06 10:48:01 20388 2

原创 逻辑回归:损失函数与梯度下降

1 sigmoid函数 2 极大似然估计MLE与损失函数 3 梯度下降 4 另一种形式的损失函数及其梯度 1.1 sigmoid函数由于二分类结果是1或者0,这与数学的阶跃函数很类似,但是阶跃函数在x=0的位置会发生突变,这个突变在数学上很难处理。所以一般使用sigmoid函数来拟合:g(z)=1...

2017-09-05 15:28:04 19919 6

原创 深度学习在CTR中的应用

一、资料 目前的很多资料均是基于张伟楠的FNN模型,但还没有很大规模的应用。 另一种是google提出的wide & deep learning模型,主要用于推荐,美团的文章中也有介绍。 Deep Learning over Multi-Field Categor...

2017-09-01 14:19:03 6269 2

原创 使用GBDT+LR作点击率预测

主要内容来源于facebook的论文:Practical Lessons from Predicting Clicks on Ads at Facebook》 1、基本思路 使用GBDT根据用户特征转换生成新的特征,每棵树的每个叶子均作为一个特征,然后将这些特征代入LR。 举个例子: (1...

2017-09-01 14:18:02 3590 0

原创 点击率预估算法:FM与FFM

点击率预估算法:FFM@(计算广告)[计算广告]点击率预估算法FFM 1FM 1 背景 11 线性模型 12 二项式模型 2 FM 21 FM基本原理 22 数据分析 23参数个数 24 计算时间复杂度 25 梯度 26 训练时间复杂度 2FFM 1 背景及基本原理 2模型与最优化问题 21 模型...

2017-09-01 14:17:03 29187 4

原创 点击率预测算法:FTRL

1逻辑回归 1 sigmoid函数 2 极大似然估计MLE与损失函数 3 梯度下降 4 另一种形式的损失函数及其梯度 2FOBOS与RDA 1 FOBOS基本原理 2 L1-FOBOS 3 RDA基本原理 4 L1-RDA 3FTRL 1 从L1-FOBOS和L1-RDA推导FTRL 2 FTRL...

2017-09-01 14:15:00 4796 1

原创 线性回归原理与spark/sklearn实现

线性回归原理与spark/sklearn实现@(SPARK)[spark, ML]一、算法原理1、线程回归与逻辑回归的区别线性回归是一种很直观的数值拟合方式,它认为目标变量和属性值之间存在线性的关系。 逻辑回归是一种分类的方法,它给出一个拟合函数,将属性输入这个函数,大于某个值的属于一类,小于这...

2017-08-14 12:00:43 1672 0

原创 kafka集群操作指南

kafka集群操作指南@(KAFKA)[kafka, 大数据]kafka集群操作指南 一单机版安装 二集群安装 三集群启停操作 四topic相关的操作 五某个broker挂掉本机器可重启 六某个broker挂掉且无法重启需要其它机器代替 七扩容 八数据迁移 九机器下线 十增加副本数量 十一lead...

2017-08-14 09:59:08 1069 0

原创 kafka集群原理介绍

kafka集群原理介绍@(KAFKA)[kafka, 大数据]kafka集群原理介绍 一基础理论 二配置文件 一java调优 二参数说明 三错误处理 四zookeeper中的内容1brokers中的信息 2consumer的信息 offset中的这个值表示什么意思不是时间是batch先看看simp...

2017-08-14 09:58:20 1974 0

原创 storm-kafka源码分析

storm-kafka源码分析@(KAFKA)[kafka, 大数据, storm]storm-kafka源码分析 一概述 一代码结构 二orgapachestormkafka 三orgapachestormkafkatrident 1spout 2state 3metric 四其它说明 1线程与...

2017-08-13 20:09:22 3254 0

原创 storm-kafka编程指南

storm-kafka编程指南@(STORM)[kafka, 大数据, storm]storm-kafka编程指南 一原理及关键步骤介绍 一使用storm-kafka的关键步骤 1创建ZkHosts 2创建KafkaConfig 3设置MultiScheme 4创建Spout 5建立拓扑 二当拓扑...

2017-08-13 20:08:45 1906 0

原创 storm集群操作指南

storm集群操作指南@(STORM)[storm, 大数据]storm集群操作指南 一storm伪分布式安装 一环境准备 二安装zookeeper 三安装storm 四运行程序 二storm集群安装 一下载storm并解压 二配置storm在stormyaml中添加以下内容 三关于包依赖的关系 ...

2017-08-13 20:08:04 1672 0

原创 storm原理介绍

storm原理介绍@(STORM)[storm, 大数据]storm原理介绍 一原理介绍Why use Storm 1适用场景 2集群相关概念 3拓扑相关概念 二配置 三并行度 一storm拓扑的并行度可以从以下4个维度进行设置 二并行度的设置方法 三示例 四分组 五可靠性 一spout 二bol...

2017-08-13 20:07:30 800 0

原创 trident原理及编程指南

trident原理及编程指南@(STORM)[storm, 大数据]trident原理及编程指南 一理论介绍 一trident是什么 二trident处理单位 三事务类型 1spout类型 2state类型 3实现恰好一次的spout与state组合类型 二编程指南 1定义输入流 2统计单词数量 ...

2017-08-13 20:06:53 873 1

原创 zookeeper基础

zookeeper基础@(OTHERS)[zookeeper]ZooKeeper的数据结构, 与普通的文件系统极为类似. 见下图:图中的每个节点称为一个znode. 每个znode由3部分组成:stat. 此为状态信息, 描述该znode的版本, 权限等信息. data. 与该znode关联的数据...

2017-08-13 20:06:10 331 0

原创 zookeeper教程

zookeeper教程@(OTHERS)[zookeeper, 大数据]zookeeper教程 一安装 二基本操作 三 一个小工具 zk-web (一)安装见后面附录(二)基本操作1、启动、关闭zookeeperbin/zkServer.sh start bin/zkServer.sh stop...

2017-08-13 20:05:46 804 0

原创 storm编程指南

storm编程指南@(STORM)[storm, 大数据]storm编程指南 一创建spout 二创建split-bolt 三创建wordcount-bolt 四创建report-bolt 五创建topo 六一些说明 1关于分布式编程的一点说明 2关于storm的classpath 七异常处理 1...

2017-08-13 20:04:19 815 0

原创 protocol buffer介绍(protobuf)

protocol buffer介绍(protobuf)@(HADOOP)[hadoop, 大数据]一、理论概述0、参考资料入门资料:https://developers.google.com/protocol-buffers/docs/javatutorial更详细的资料:For more det...

2017-08-13 20:02:35 704 0

原创 kafka集群编程指南

kafka集群编程指南@(KAFKA)[kafka, 大数据]kafka集群编程指南 一概述 一主要内容 二关于scala与java的说明 二producer的API 一scala版本deprecated 1一个简单例子 2指定partitioner的producer 关于KeyedMessage...

2017-08-13 20:00:06 493 0

原创 关于kafka中的timestamp与offset的对应关系

关于kafka中的timestamp与offset的对应关系@(KAFKA)[storm, kafka, 大数据]关于kafka中的timestamp与offset的对应关系 获取单个分区的情况 同时从所有分区获取消息的情况 结论 如何指定时间 出现UpdateOffsetException时的处...

2017-08-11 14:41:23 1204 1

原创 kafka存储机制

kafka存储机制@(KAFKA)[storm, 大数据]kafka存储机制 一关键术语 二topic中partition存储分布 三 partiton中文件存储方式 四 partiton中segment文件存储结构 五在partition中如何通过offset查找message 六Kafka文件...

2017-08-11 14:40:51 398 0

原创 kafka分区及副本在broker的分配

kafka分区及副本在broker的分配@(KAFKA)[kafka, 大数据]部分内容参考自:http://blog.csdn.net/lizhitao/article/details/41778193下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,...

2017-08-11 14:40:19 1706 0

原创 JAVA日志系统

JAVA日志系统@(JAVA)[java, 大数据]JAVA日志系统 一slf4j 一最简单示例 二常用示例 三其它示例 四一些注意事项 二log4j 一使用java向rsyslog发送日志 基本使用方法 不使用配置文件 三logging 四使用slf4jlog4j2向rsyslog发送日志 一r...

2017-08-11 14:39:39 493 0

原创 Java多线程基础

Java多线程基础@(JAVA)[java]Java多线程基础 一概述 一基础内容 1线程的基本概念 2JAVA线程基础 3创建新线程的2种方法 二线程状态及其变迁 1Java线程的六种状态 2线程状态的变迁 二常用API 一1创建启动线程 二终止线程的方法 三线程优先级 四waitnofityn...

2017-08-11 14:39:05 396 0

原创 spark之1:快速入门

spark之1:快速入门@(SPARK)[spark, 大数据]spark可以通过交互式命令行及编程两种方式来进行调用: 前者支持scala与python 后者支持scala、python与java本文参考https://spark.apache.org/docs/latest/quick-s...

2017-08-11 14:38:32 283 0

原创 spark之2:原理介绍

spark之2:原理介绍@(SPARK)[spark, 大数据]1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。 2、spark所有操作均基于RDD,操作主要分成2大类:transformation与acti...

2017-08-11 14:38:03 764 0

原创 spark之3:安装部署

spark之3:安装部署@(SPARK)[spark, 大数据]spark之3安装部署 一单机安装 1环境准备 2安装scala 3安装spark 4验证安装情况 一、单机安装本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分: (1)环境准备 (2)安装scala ...

2017-08-11 14:37:35 626 0

原创 spark之4:编程指南

spark之4:编程指南@(SPARK)[spark, 大数据](一)快速入门:基本步骤1、创建一个maven项目2、增加pom.xml中的依赖 <dependency> <groupId>org.apache.spark</groupId>...

2017-08-11 14:34:28 330 0

原创 spark之12:集群模式概述

spark之12:集群模式概述@(SPARK)[spark, 大数据]英文原文地址:https://spark.apache.org/docs/latest/cluster-overview.htmlspark之12集群模式概述 组件 集群管理器的类型 提交应用 监控 作业调度 术语 Applic...

2017-08-11 14:32:20 285 0

原创 spark之13:提交应用的方法(spark-submit)

spark之13:提交应用的方法(spark-submit)@(SPARK)[spark, 大数据]参考自:https://spark.apache.org/docs/latest/submitting-applications.html常见的语法: ./bin/spark-submit \ ...

2017-08-10 11:12:33 1183 0

原创 SPARK STREAMING之1:编程指南(翻译v1.4.1)

SPARK STREAMING之1:编程指南(翻译v1.4.1)@(SPARK)[spark, 大数据]SPARK STREAMING之1编程指南翻译v141 概述 快速入门例子 基本概念 Linking 概述Spark Streaming是Spark核心API的一个扩展,它使得spark可扩展、...

2017-08-10 11:11:42 678 0

原创 构建scala+IDEA+sbt开发环境

构建scala+IDEA+sbt开发环境@(SCALA)[scala]设置build.sbt后,idea不会自动下载依赖关系??后台运行sbt compile成功,但idea没有自动将相应的包放到项目中。(一)快速搭建环境1、使用IDEA创建scala的SBT项目 选择sbt: 输入项目基本信...

2017-08-10 11:11:11 4722 0

原创 spark之4:基础指南(源自官方文档)

spark之4:基础指南(源自官方文档)@(SPARK)[spark, 大数据]spark之4基础指南源自官方文档 一简介 二接入Spark 三初始化Spark 一使用Shell 四弹性分布式数据集RDDs 一并行集合 二外部数据集 三RDD操作 1基础操作 2向Spark传递函数 3理解闭包 例...

2017-08-10 11:10:15 403 0

原创 git基础指南

git基础指南@(OTHERS)[others, git]git基础指南 一基本原理 一概述 二git文件的三种状态 二基本操作 一取得项目的Git 仓库 1从当前目录初始化 从现有仓库克隆 二提交代码 三远程仓库 1查看当前的远程库 2添加远程仓库从远程仓库抓取数据 3推送数据到远程仓库 4查看...

2017-08-10 11:09:43 285 0

原创 eclipse常用快捷键

eclipse常用快捷键@(JAVA)[others]其它请参考: http://www.oschina.net/code/piece_full?code=35585 http://www.cnblogs.com/iamfy/archive/2012/07/11/2586869.html注意e...

2017-08-10 11:09:12 257 0

原创 storm hook的使用

storm hook的使用@(STORM)[storm]storm hook的使用 一原理 二入门例子 三hook的类型 四应用场景 (一)原理1、先看一下storm的hook是什么东西: http://storm.apache.org/documentation/Hooks.htmlStorm ...

2017-08-10 11:08:35 903 0

原创 关于kafka中的timestamp与offset的对应关系

关于kafka中的timestamp与offset的对应关系@(KAFKA)[storm, kafka, 大数据]关于kafka中的timestamp与offset的对应关系 获取单个分区的情况 同时从所有分区获取消息的情况 结论 如何指定时间 出现UpdateOffsetException时的处...

2017-08-10 11:08:02 2487 0

提示
确定要删除当前文章?
取消 删除