- 博客(22)
- 资源 (5)
- 收藏
- 关注
原创 Hadoop/MapReduce 查找、统计和列出大图中的所有三角形
package cjtriangle;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.co
2017-11-26 23:28:53 1362
原创 Hadoop/MapReduce 及 Spark KNN分类算法实现
如何为R中的每一个点找到它合适的分类呢?KNN(K邻近)算法:(1)确定K(K的选择取决于具体的数据和项目需求)(2)计算新输入,如【1000;3.0,3.0】与所有训练数据之间的距离(与K一样,距离函数的选择也取决于数据的类型)(3)对距离排序,并根据前K个最小距离确定K个邻近。(4)搜集这些邻近所属的类别(5)根据多数投票确定类别通俗来说有一群土豪:土豪1,土豪2,土豪3,土豪4...有一群屌丝,屌丝1,屌丝2,屌丝3,屌丝4...现在来了一个人,如何判断这个人是屌丝还是土豪呢?
2017-11-18 20:56:48 4000 1
原创 Hadoop/MapReduce 及 Spark KMeans聚类算法实现
package kmeans;import java.io.BufferedReader;import java.io.DataInput;import java.io.DataOutput;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.ArrayL
2017-11-18 13:48:41 1684 1
翻译 Spark 使用马尔可夫模型的智能邮件营销
目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销至于营销的商品内容,可以根据其他推荐算法的结果。输入:,,,...ZSY40NY
2017-11-17 19:07:34 1162 1
翻译 Hadoop/MapReduce 使用马尔可夫模型的智能邮件营销
目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销至于营销的商品内容,可以根据其他推荐算法的结果。输入:,,,...ZSY40NYPS
2017-11-17 16:55:34 946 3
翻译 Spark 好友推荐解决方案
目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些例如:有如下的好友关系:1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表
2017-11-16 23:05:36 2264
原创 Hadoop/MapReduce 好友推荐解决方案
目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些例如:有如下的好友关系:1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表其对应的好友
2017-11-16 22:27:48 1177
翻译 Spark 共同好友解决方案:求大量集合的两两交集
Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBufferobject FindCommonFriends { def main
2017-11-16 16:12:47 3015
翻译 Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集
共同好友:求大量集合的两两交集目标:令U为包含所有用户的一个集合:{U1,U2,...,Un},我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。前提:好友关系是双向的输入:...100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100,300600,100解决
2017-11-16 11:38:44 3725 1
翻译 Spark购物篮分析:关联规则挖掘
1、浅谈数据挖掘中的关联规则挖掘2、Hadoop/MapReduce购物篮分析:关联规则挖掘3、Spark购物篮分析过程分析:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBuff
2017-11-15 22:01:22 3857 3
翻译 Hadoop/MapReduce购物篮分析:关联规则挖掘
购物篮分析目的:查找一个给定超市或者网店购物篮中最常出现的商品对(阶数为1,2...)例如:如果有5个商品{A,B,C,D,E},对应以下6个交易:Transaction 1:A,CTransaction 2:B,DTransaction 3:A,C,ETransaction 4:C,ETransaction 5:A,B,ETransaction 6:B,E我们的目标是构建项集
2017-11-15 17:45:19 3200 1
翻译 Spark移动平均:时间序列数据平均值
一、内存排序import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject MovingAverageInMemory { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppN
2017-11-15 15:42:35 2080
翻译 Hadoop/MapReduce反转排序:控制规约器Reducer值的顺序
例子:计算一个给定文档集中单词的相对频度。目标是建立一个N*N矩阵M,其中N为所有给定文档的单词量,每个单元Mij包含一个特定上下文单词Wi与Wj共同出现的次数。为简单起见,将这个上下文定义为Wi的邻域。例如:给定以下单词:W1,W2,W3,W4,W5,W6如果定义一个单词的邻域为这个单词的前两个单词和后两个单词,那么这6个单词的邻域如下:单词 领域+-2W1 W2,W3
2017-11-08 21:38:35 1361
原创 Spark的左外连接解决方案
Hadoop/MapReduce的左外连接解决方案1、Spark的左外连接解决方案之不使用letfOutJoin()import org.apache.spark.{SparkConf, SparkContext}object LeftOutJoinTest { def main(args: Array[String]): Unit = { //连接Spar
2017-11-08 20:05:20 3374
翻译 MapReduce/Hadoop的左外连接解决方案
要解决的问题:假设有两类数据:用户和交易。用户数据包括用户的地址信息,交易数据包括用户身份信息,但是不包括应乎地址的直接信息。给定users和transactions如下:users(user_id,location_id)transactions(transaction_id,product_id,user_id,quantity,amount)我们的目标是得出每个商品对应的唯一
2017-11-08 18:28:57 1162
原创 Spark的TopN解决方案(键唯一的情况、键不唯一的情况)
TopN问题:上星期访问次数最多的10个URL是哪些?所有猫中体重最大的10只猫是哪些?本文使用 MapReduce/Hadoop的TopN解决方案,假设所有输入键都是唯一的。也就是说,对于一个给定的输入集合{},所有K都是唯一的。例如对于下面的猫,cat1不会再出现第二次输入:top10data.txtcat1,12cat2,13cat3,
2017-11-02 21:24:26 1047
原创 MapReduce/Hadoop的TopN解决方案之键不唯一的情况
一、MapReduce/Hadoop的TopN解决方案之键唯一的情况(点击打开链接)二、针对键不唯一的情况,即文件中可能出现多次关键字解决办法:先讲不唯一键转换为唯一键,即使用MapReduce合并键相同的项,再使用(一)所述的唯一键TopN方案即package topN_hadoop1;import java.io.IOException;
2017-11-02 16:45:09 772
原创 MapReduce/Hadoop的TopN解决方案之键唯一的情况
TopN问题:上星期访问次数最多的10个URL是哪些?所有猫中体重最大的10只猫是哪些?本文使用 MapReduce/Hadoop的TopN解决方案,假设所有输入键都是唯一的。也就是说,对于一个给定的输入集合{},所有K都是唯一的。输入:cat.txt12,cat1,cat113,cat2,cat214,cat3,cat315,cat4,cat410,cat5,
2017-11-02 15:03:24 1171 4
原创 Spark的二次排序解决方案
一、MapReduce/Hadoop的二次排序解决方案(点击打开)二、Spark的二次排序解决方案方案1:同(一)的方案1,将一个给定键的所有值读取并缓存到一个List数组(Array)数据结构中,然后对这些值进行排序。如果内存不够放,则无法实现方案2:同(一)的方案2,“会为自然键增加部分或整个值来创建一个组合键以实现排序目标”三、代码实现(一):使用Spark
2017-11-02 10:03:53 1313
原创 MapReduce/Hadoop的二次排序解决方案
二、为什么要进行二次排序?使用hadoop的map reduce将原始数据按照以年份-月份为key,温度为value进行操作,hadoop默认会将key进行排序,即按照年份-月份进行排序可以发现其key为有序的,而每个key中的value,也就是我们想要排序的温度值却无能为力。因此我们需要进行二次排序,即在根据key值排序的基础上再对value值进行排序。三、如何进行二次排序?方案1:对于每一个key的所有value值,在(二)代码的reduce函数中先将其读取和缓存到一个集合中,然后再对这个集
2017-11-01 21:45:01 1441 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人