自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Utopia_1919

最恨成仙难。

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 IDEA开发Spark提示failed to locate the winutils binary in the hadoop binary

今天整理电脑删了一些没用的东西,回过头开发spark的时候发现spark提示错误:16/09/06 17:20:43 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable D:\hadoop-2.6.4\b

2016-09-06 17:29:17 6417

原创 Spark读写S3(AWS亚马逊中国区beijing)

Spark读写S3(AWS亚马逊中国区)因为中国区的region相对于其他国家是隔离的,所以在中国使用亚马逊S3需要单另设置endpoint来指定地区。首先我们需要引入hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar,以及aws自己提供的sdk包:aws-java-sdk-1.7.4.jar使用2.7.2的原因是由于hadoop2.7.2才支持s3。接下来我们在程序中定义

2016-09-06 14:11:33 6265 1

原创 python设置定时任务(定时执行脚本)

今天工作的时候用到了python设置定时执行任务,因为代码比较简单但是写起来有点麻烦,就粘到笔记里以便以后用的时候直接使用。代码如下:import os,timeimport sysdef DeltaSeconds(): SECONDS_PER_DAY = 24 * 60 * 60 from datetime import datetime, timedelta curTi

2016-08-02 21:52:38 7582 1

原创 RDD编程中的RDD连接(表连接)问题

在spark的rdd编程的时候,我们经常想做一些表连接的操作。 对rdd理解不深的时候我们可能会写出如下代码: val temp1 = sc.textFile("C://Users/802/Desktop/1.txt").map(_.split(",")).map(k => (k(0).toInt,k(1).toInt)) val temp2 = sc.textFile("C

2016-07-26 17:58:18 1884

原创 Docker上关于出现无法识别host的问题解决方案

今天在服务器上使用docker时候发生了如下的问题:提示无法连接主机,后来发现是权限除了问题命令前加sudo解决。

2016-07-26 12:16:46 3358

原创 诸葛io笔记

产品 数据驱动产品运营与市场增长工具 获取更多用户 活跃与留存 度量、发现、执行、验证 诸葛io能做什么互联网用户增长 - 新增 - 活跃 - 留存 - 流失 互联网团队分工 市场 ——-新增的新用户 运营产品 ———让用户留存更持久 运营 —–让流失的用户“复活”诸葛io是做什么的?用户行为数据化 -》 分析智能化 -》 优化加

2016-07-14 15:23:45 419

原创 mahout推荐系统源码笔记(6) ---补充之mahout抽样

mahout中基于hadoop的推荐系统采用抽样的方式压缩向量。 具体是这样的: 在相似度计算的job中,输入是这样的格式:itemID , Vector< userID , pref >首先通过对每个item的向量空间进行sampleDown采样,然后默认是500,不够五百的空间取全部向量。 然后就这样将推荐的向量压缩在了一个可控的范围,接下来对itemID进行相似度计算以后会有一个topN

2016-07-13 17:34:26 497

原创 ScalaException之No TypeTag available for ***

今天使用Scala编写Spark程序的时候因为需要使用SparkSql建表所以有了如下的代码(代码只是例子,不是现实工程):import org.apache.spark.{SparkContext, SparkConf}/** * Created by Utopia on 2016/7/13. */object testforjob { def main (args: Array[Stri

2016-07-13 12:47:35 1416

原创 基于电商的推荐系统看用户行为分析

推荐系统是随着数据爆炸的互联网时代应运而出的一个提升用户搜索效率、增加商家转化率的有效方法。首先从14年的京东推荐系统切入。关于京东的推荐系统找回模型,基本上是典型的推荐系统典型召回模型的代表,其基于三个维度实现: 基于行为的召回 根据用户购买行为推荐相关/相似的商品。大家都知道根据用户的浏览记录推荐相似商品,但京东更进一步地把购买行为视为一个重要的分界线,当用户已购买某个商品,京东会根据商品种类

2016-07-11 12:10:18 9010

原创 mahout之推荐系统源码笔记(4) ---总结与优化

mahout之推荐系统源码笔记(4) —总结花了三天的时间阅读分析了mahout推荐系统中基于java单机和基于hadoop的分布式mapreduce源码。根据其推荐系统hadoop程序的job划分写了笔记1、2、3。在这里,基于笔记1,2,3做一个总结。 我们先从相似度开始。什么是相似度,就是我们在构建推荐系统时,基于user或者基于item都需要计算出相应的候选item或者是user。那么在m

2016-07-08 13:50:22 3387

原创 mahout之推荐系统源码笔记(2) ---相似度计算之RowSimilarityJob

mahout之推荐系统源码笔记(2) —相似度计算之RowSimilarityJob本笔记承接笔记一。 在笔记1中我们分析了PreparePreferenceMatrixJob的源码,该job对输入数据进行了一定的预处理准备工作。接下来mahout使用RowSimilarityJob对数据user-item集的相似度进行计算,得到每个物品关于其他所有物品的相似度矩阵。首先我们同样看Recommen

2016-07-07 15:00:49 4105 2

原创 mahout之推荐系统源码笔记(3) ---执行推荐之RecommenderJob

接下来我们看到RecommenderJob执行如下job,用户是否指定记录下相似矩阵: if (hasOption("outputPathForSimilarityMatrix")) { Path outputPathForSimilarityMatrix = new Path(getOption("outputPathForSimilarityMatrix"))

2016-07-06 10:13:39 1559

原创 mahout之推荐系统源码笔记(1) ---预处理之PreparePreferenceMatrixJob

mahout之推荐系统源码笔记hadoop篇:因为时间原因首先更新分布式hadoop上的推荐系统源码的阅读。首先给出mahout中taste推荐系统的代码结构:taste common evalhadoop impl modelneighborhoodrecommendersimilarity modelneighborhoodrecommendersimi

2016-07-05 16:10:15 1811

spark/hadoop读取s3所需要的外部依赖包

aws-java-sdk-1.7.4.jar hadoop-aws-2.7.2.jar 引入代码即可在读写中国区亚马逊s3

2016-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除