修鹏的专栏

修鹏的专栏

对比了下的spark mllib和 Liblinear 的LR的实现

对比了下的spark mllib和 Liblinear 的LR的实现:      liblinear 是基于TRON的求解方式,Mllib的LR是基于LBFGS和SGD两种实现方式都有。    http://spark.apache.org/docs/latest/mllib-linear-met...

2016-07-03 13:09:07

阅读数 3715

评论数 0

个性化推荐系统方向简单介绍

先介绍下的咱们目前推荐系统的做的两个大方向:          1、基于自然语言处理的用户短期和长期兴趣+rank 排序。            推荐方法:a)、基于topic&keywrods等信息构建的video profile+用户行为+rank 排序构建的online or off...

2016-04-11 17:40:31

阅读数 2434

评论数 3

Google第二代深度学习系统TensorFlow开源(PPT下载)

Google Research宣布推出第二代深度学习系统TensorFlow。TensorFlow针对先前的DistBelief的短板有了各方面的加强。任何能够用计算流图形来表达的计算,都可以使用TensorFlow。任何基于梯度的机器学习算法都能够受益于TensorFlow的自动分化(auto-...

2015-11-10 10:20:20

阅读数 8224

评论数 0

个性化push推荐系统架构和经验分享 (三)

这里简单个性化push推荐系统架构: 这个架构大家一定见过挺多的了。这里我重点说下混合模型推荐系统这块,上个图吧: 多模型融合和模型基于预发送更新都是基于队列的message来进行update。系统间得调度和流程都是基于message 协议。 简单介绍其中两个简单得协议: ...

2015-10-25 22:15:27

阅读数 4729

评论数 1

个性化push推荐系统架构和经验分享 (二)

这篇文章主要说下我们在个性化推荐策略的选择、实践和总结,没有太多机器学习方面的东西,就是简简单单说说大概的做法。推荐系统主要方法: 协同过滤(Collaborative Filtering) User based collaborative filtering &item based...

2015-10-25 18:47:46

阅读数 2962

评论数 0

个性化push推荐系统架构和经验分享 (一)

从负责做个性化push推荐系统已经快一年了。开始做个性化push推荐系统,开始收集了各方面数据,通过各方面的数据表现和经验,来制定我们战略,然后好制定我们战术的打法。 下面我从以下三方面介绍push思考过程和做法: 1、业务分析 2、个性化推荐策略实践和总结 ...

2015-10-25 18:18:38

阅读数 6092

评论数 1

修改hive表location

两种方式: 一、通过修改表DDL: alter table t_m_cc set location 'hdfs://heracles/user/video-mvc/hive/warehouse/t_m_cc' 二、直接修改hive 的meta info: update `DBS` se...

2015-05-20 14:42:20

阅读数 17972

评论数 0

kafka queue full解决办法

(kafka.producer.async.AsyncProducer:109) - Event queue is full of unsent messages, could not send event:  queue.enqueueTimeout.ms, if set to -...

2015-01-27 23:19:23

阅读数 4029

评论数 0

最近看看git有哪些新见的比较好的项目

2015-01-13 11:41:19

阅读数 1816

评论数 0

Lambda架构简介

原网址:http://www.ymc.ch/en/lambda-architecture-part-1 Hadoop框架带来了批量数据处理,但是网络规模大数据的实时处理仍然是一个挑战。 有很多技术可以用来建立这样一个完整的数据处理系统 - 但要选择合适的工具并且编排使用它们却是复杂和...

2015-01-06 09:25:44

阅读数 3756

评论数 0

避免regionServer宕机

因为regionserver 的管理信息主要记录在zookeeper,regionserver的宕机判断依据是session expired。ok 那么regionserver 和Zookeeper的session expired原因有哪些尼? 1. 网络不好。 2. Jav...

2015-01-05 12:05:18

阅读数 4366

评论数 0

2014年总结之dm组数据仓库设计总结

来搜狐移动视频dm组已经快一年半了,今天是2014年12月31号,是2014的最后一天,想想写点东西。写点什么尼,咱们就说说数据仓库dm组设计的一些实践把。 我这里也感谢我得领导给我的机会和舞台。ok,进入正题。简单聊聊数据仓库设计在我们这边的思考方式,存在不足,还望见谅。       数据仓库之...

2014-12-31 16:03:07

阅读数 3948

评论数 2

数据仓库架构发展

一、什么是数据仓库       传统数据仓库的概念是数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。             简单来说之前的数据仓库只能支持战略决策到支持战略决策和战术决策( tactica ...

2014-12-31 10:49:36

阅读数 5325

评论数 0

Hbase架构简介、实践

Hbase架构简介、实践

2014-12-21 20:50:24

阅读数 7798

评论数 1

spark中RDD的transformation&action

简介: 1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 2,action是得到一个值,或者一个结果(直接将RDDcache到内存中) 所有的transformation都是采用的懒策略,就是如果只是将tr...

2014-12-16 12:07:15

阅读数 17965

评论数 1

IntelliJ IDEA 快捷键大全和使用技巧

———————————————— 实用快捷键: Ctrl+/ 或 Ctrl+Shift+/ 注释(// 或者/*…*/ ) Ctrl+D 复制行 Ctrl+X 删除行 快速修复 alt+enter (modify/cast) 代码提示 alt+/ ctr+G 定位某一行 S...

2014-12-10 17:44:24

阅读数 13783

评论数 0

Socket常用几种类型

Socket是一组编程接口(API), 是对TCP/IP协议的封装和应用。介于传输层和应用层,大致驻留在 OSI 模型的会话层,向应用层提供统一的编程接口。应用层不必了解TCP/IP协议细节。直接通过对Socket接口函数的调用完成数据在IP网络的传输。 基于传输层差异,4种...

2014-12-03 14:27:50

阅读数 20960

评论数 0

Proxy、SSH 和VPN 的区别

Proxy、SSH 和VPN 的区别

2014-12-03 11:40:04

阅读数 40990

评论数 4

storm 进程消失

用daemontools监控zookeeper和storm 参考官网网址: http://storm.apache.org/documentation/Tutorial.html 一、用daemontools监控storm 1、主要目录和run脚本 在/service下,新建文件夹sto...

2014-11-27 18:06:23

阅读数 32028

评论数 0

Redis常用命令

Redis常用命令集 1)连接操作命令 quit:关闭连接(connection) auth:简单密码认证 help cmd: 查看cmd帮助,例如:help quit 2)持久化 save:将数据同步保存到磁盘 bgsave:将数据异步保存到磁盘 lastsave:返回上次成...

2014-11-18 17:57:46

阅读数 31657

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭