Utopia_1919-CSDN博客

原创 IDEA开发Spark提示failed to locate the winutils binary in the hadoop binary

今天整理电脑删了一些没用的东西，回过头开发spark的时候发现spark提示错误：16/09/06 17:20:43 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable D:\hadoop-2.6.4\b

2016-09-06 17:29:17 6455

原创 Spark读写S3（AWS亚马逊中国区beijing）

Spark读写S3（AWS亚马逊中国区）因为中国区的region相对于其他国家是隔离的，所以在中国使用亚马逊S3需要单另设置endpoint来指定地区。首先我们需要引入hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar，以及aws自己提供的sdk包：aws-java-sdk-1.7.4.jar使用2.7.2的原因是由于hadoop2.7.2才支持s3。接下来我们在程序中定义

2016-09-06 14:11:33 6359 1

原创 python设置定时任务（定时执行脚本）

今天工作的时候用到了python设置定时执行任务，因为代码比较简单但是写起来有点麻烦，就粘到笔记里以便以后用的时候直接使用。代码如下：import os,timeimport sysdef DeltaSeconds(): SECONDS_PER_DAY = 24 * 60 * 60 from datetime import datetime, timedelta curTi

2016-08-02 21:52:38 7709 1

原创 RDD编程中的RDD连接（表连接）问题

在spark的rdd编程的时候，我们经常想做一些表连接的操作。对rdd理解不深的时候我们可能会写出如下代码： val temp1 = sc.textFile("C://Users/802/Desktop/1.txt").map(_.split(",")).map(k => (k(0).toInt,k(1).toInt)) val temp2 = sc.textFile("C

2016-07-26 17:58:18 1938

原创 Docker上关于出现无法识别host的问题解决方案

今天在服务器上使用docker时候发生了如下的问题：提示无法连接主机，后来发现是权限除了问题命令前加sudo解决。

2016-07-26 12:16:46 3416

原创诸葛io笔记

产品数据驱动产品运营与市场增长工具获取更多用户活跃与留存度量、发现、执行、验证诸葛io能做什么互联网用户增长 - 新增 - 活跃 - 留存 - 流失互联网团队分工市场 ——-新增的新用户运营产品 ———让用户留存更持久运营 —–让流失的用户“复活”诸葛io是做什么的？用户行为数据化 -》分析智能化 -》优化加

2016-07-14 15:23:45 462

原创 mahout推荐系统源码笔记（6） ---补充之mahout抽样

mahout中基于hadoop的推荐系统采用抽样的方式压缩向量。具体是这样的：在相似度计算的job中，输入是这样的格式：itemID , Vector< userID , pref >首先通过对每个item的向量空间进行sampleDown采样，然后默认是500，不够五百的空间取全部向量。然后就这样将推荐的向量压缩在了一个可控的范围，接下来对itemID进行相似度计算以后会有一个topN

2016-07-13 17:34:26 516

原创 ScalaException之No TypeTag available for ***

今天使用Scala编写Spark程序的时候因为需要使用SparkSql建表所以有了如下的代码（代码只是例子，不是现实工程）：import org.apache.spark.{SparkContext, SparkConf}/** * Created by Utopia on 2016/7/13. */object testforjob { def main (args: Array[Stri

2016-07-13 12:47:35 1442

原创基于电商的推荐系统看用户行为分析

推荐系统是随着数据爆炸的互联网时代应运而出的一个提升用户搜索效率、增加商家转化率的有效方法。首先从14年的京东推荐系统切入。关于京东的推荐系统找回模型，基本上是典型的推荐系统典型召回模型的代表，其基于三个维度实现：基于行为的召回根据用户购买行为推荐相关/相似的商品。大家都知道根据用户的浏览记录推荐相似商品，但京东更进一步地把购买行为视为一个重要的分界线，当用户已购买某个商品，京东会根据商品种类

2016-07-11 12:10:18 9088

原创 mahout之推荐系统源码笔记（4） ---总结与优化

mahout之推荐系统源码笔记（4） —总结花了三天的时间阅读分析了mahout推荐系统中基于java单机和基于hadoop的分布式mapreduce源码。根据其推荐系统hadoop程序的job划分写了笔记1、2、3。在这里，基于笔记1，2，3做一个总结。我们先从相似度开始。什么是相似度，就是我们在构建推荐系统时，基于user或者基于item都需要计算出相应的候选item或者是user。那么在m

2016-07-08 13:50:22 3451

原创 mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob

mahout之推荐系统源码笔记（2） —相似度计算之RowSimilarityJob本笔记承接笔记一。在笔记1中我们分析了PreparePreferenceMatrixJob的源码，该job对输入数据进行了一定的预处理准备工作。接下来mahout使用RowSimilarityJob对数据user-item集的相似度进行计算，得到每个物品关于其他所有物品的相似度矩阵。首先我们同样看Recommen

2016-07-07 15:00:49 4193 2

原创 mahout之推荐系统源码笔记（3） ---执行推荐之RecommenderJob

接下来我们看到RecommenderJob执行如下job，用户是否指定记录下相似矩阵： if (hasOption("outputPathForSimilarityMatrix")) { Path outputPathForSimilarityMatrix = new Path(getOption("outputPathForSimilarityMatrix"))

2016-07-06 10:13:39 1593

原创 mahout之推荐系统源码笔记（1） ---预处理之PreparePreferenceMatrixJob

mahout之推荐系统源码笔记hadoop篇：因为时间原因首先更新分布式hadoop上的推荐系统源码的阅读。首先给出mahout中taste推荐系统的代码结构：taste common evalhadoop impl modelneighborhoodrecommendersimilarity modelneighborhoodrecommendersimi

2016-07-05 16:10:15 1856

Utopia_1919