2016年12月_yongjian_luo

转载 <转>深入理解Spark RDD抽象模型和编写RDD函数

深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera

2016-12-27 10:34:26 685

转载 <转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

2016-12-27 10:32:38 738

转载 <转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

2016-12-27 10:30:48 1896 1

转载 <转>Java Web提交任务到Spark

相关软件版本：Spark1.4.1 ，Hadoop2.6，Scala2.10.5 , MyEclipse2014，intelliJ IDEA14，JDK1.8，Tomcat7机器：windows7 （包含JDK1.8，MyEclipse2014，IntelliJ IDEA14，TOmcat7）；centos6.6虚拟机（Hadoop伪分布式集群，Spark stan

2016-12-27 10:22:02 621

转载 <转>用户画像构建策略及应用实践

Qunar用户画像构建策略及应用实践1用户画像的构建原则我们做用户画像的目的有两个：必须从业务场景出发，解决实际的业务问题，之所以进行用户画像要么是获取新用户，或者是提升用户体验，或者是挽回流失用户等有明确的业务目标。根据用户画像的信息做产品设计，必须要清楚知道用户长什么样子，有什么行为特征和属性，这样才能为用户设计产品或开展营销活

2016-12-26 17:28:21 627

转载 <转>推荐系统原理介绍-用户画像简介

最近在做推荐系统，在项目组内做了一个分享。今天有些时间，就将逻辑梳理一遍，将ppt内容用文字沉淀下来，便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂，要走的路还很长。 A First Glance 为什么需要推荐系统——信息过载随着互联网行业的井喷式发展，获取信息的方式越来越多，人们从主动获取信息逐渐变成了被动接受信息，

2016-12-26 16:54:43 1825

转载 <转>基于Spark Mllib，SparkSQL的电影推荐系统

本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统，以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下： 1.某电影网站拥有可观的电影资源和用户数，通过各个用户对各个电影的评分，汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影，并都为其做了评分操作（0-5分） 3.该电影网站的推荐系统根据我对那

2016-12-19 10:10:13 714

转载 <转>ganglia之数据提取

由于chukwa现阶段仍不稳定，安装过程复杂，调试困难等缺点，**选择将其放弃（此时chukwa 研究已经有大半年时间），改用曾经一度被看好的ganglia，ganglia最初因为它的分布式监控效果突出被看好，但又因为它不能对日志分析，只是单纯监控集群的工作状态，无法与Hadoop任务的监视进行有效结合被放弃。但不可否认，ganglia依旧有很多优势。Ganglia is a sc

2016-12-14 17:21:53 914

转载 <转>Ganglia的Python扩展模块开发

1. 概述 Ganglia 项目是由加州大学发起的，现在已经成为一个应用非常广泛集群监控软件。可以监视和显示集群中的节点的各种状态信息，比如如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，同时可以将历史数据以曲线方式通过php页面呈现。同时具有很好的扩展性，允许用户加入自己所要监控的状态信息。根据可视化的相关数据，很容易知道集群的健康状态，并且也可以分析出集群的可优化

2016-12-08 17:28:43 317

转载 <转>Nagios安装及配置

下面我们来说说如何安装Nagios。1。下载安装包可以在http://www.nagios.org/download下载到最新的Nagios Core, Nagios plugin安装包。2。建立用户切换到root用户/usr/sbin/useradd nagiospasswd nagios创建一个用户组名为nagcm

2016-12-08 10:58:37 356

转载 <转>分布式Ganglia自定义扩展监控及集群环境下的实施

其实我今天主要想讲自定义监控，以及模板的使用，估计好多人不用ganglia，所以就先说的安装和配置。在安装过程中，会遇见各种各样的问题，碰到问题google下，一般是没有问题的。国外用ganglia的还真不少。好，现在开始扯淡自定义监控：这个命令跑了后，会在web界面能看到咱们添加的testno3这个数据图表了。ganglia可以到处json的数据，而不用自

2016-12-07 16:47:56 766

转载 <转>Apache Sentry安装及简单使用

1 环境描述三台hadoop集群，分别是master、slave1和slave2。下面是这三台机器的软件分布：master：NameNode、ZK、HiveMetaSotre、HiveServer2、SentryServerslave1：DataNode、ZKslave2：DataNode、ZK2 软件需求MySqlmysql-jdbc.jar：mysql-conn

2016-12-06 14:08:26 2026

yongjian_luo的专栏

转载 <转>深入理解Spark RDD抽象模型和编写RDD函数

转载 <转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载 <转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载 <转>Java Web提交任务到Spark

转载 <转>用户画像构建策略及应用实践

转载 <转>推荐系统原理介绍-用户画像简介

转载 <转>基于Spark Mllib，SparkSQL的电影推荐系统

转载 <转>ganglia之数据提取

转载 <转>Ganglia的Python扩展模块开发

转载 <转>Nagios安装及配置

转载 <转>分布式Ganglia自定义扩展监控及集群环境下的实施

转载 <转>Apache Sentry安装及简单使用

clementine的中文教程

clementine基础培训一

Hbase入门与使用

Hadoop_eclipse-plugin编译方法

空空如也