2017年11月_土豆拍死马铃薯

原创 Hadoop/MapReduce 查找、统计和列出大图中的所有三角形

package cjtriangle;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.co

2017-11-26 23:28:53 1362

原创 Hadoop/MapReduce、Spark 朴素贝叶斯分类器分类符号数据

Hadoop/MapReduce 朴素贝叶斯分类器分类符号数据

2017-11-25 23:48:12 1650 2

原创 Hadoop/MapReduce 及 Spark KNN分类算法实现

如何为R中的每一个点找到它合适的分类呢？KNN（K邻近）算法：（1）确定K（K的选择取决于具体的数据和项目需求）（2）计算新输入，如【1000;3.0,3.0】与所有训练数据之间的距离（与K一样，距离函数的选择也取决于数据的类型）（3）对距离排序，并根据前K个最小距离确定K个邻近。（4）搜集这些邻近所属的类别（5）根据多数投票确定类别通俗来说有一群土豪：土豪1，土豪2，土豪3，土豪4...有一群屌丝，屌丝1，屌丝2，屌丝3，屌丝4...现在来了一个人，如何判断这个人是屌丝还是土豪呢？

2017-11-18 20:56:48 4000 1

原创 Hadoop/MapReduce 及 Spark KMeans聚类算法实现

package kmeans;import java.io.BufferedReader;import java.io.DataInput;import java.io.DataOutput;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.ArrayL

2017-11-18 13:48:41 1684 1

翻译 Spark 使用马尔可夫模型的智能邮件营销

目的：用户的购买行为看起来是没有规律可循的，但其实从时间有序的角度看，也许是有规律可循的，例如，用户可能每一个月发工资时购买得多，每年某个时间（双十一、生日）等购买得比较多马尔科夫模型能够挖掘出时间上的规律，假设我们能够根据用户上一次购买记录推测其下一次购买时间，就可以在推测时间向其发送邮件进行营销至于营销的商品内容，可以根据其他推荐算法的结果。输入：,,,...ZSY40NY

2017-11-17 19:07:34 1162 1

翻译 Hadoop/MapReduce 使用马尔可夫模型的智能邮件营销

目的：用户的购买行为看起来是没有规律可循的，但其实从时间有序的角度看，也许是有规律可循的，例如，用户可能每一个月发工资时购买得多，每年某个时间（双十一、生日）等购买得比较多马尔科夫模型能够挖掘出时间上的规律，假设我们能够根据用户上一次购买记录推测其下一次购买时间，就可以在推测时间向其发送邮件进行营销至于营销的商品内容，可以根据其他推荐算法的结果。输入：,,,...ZSY40NYPS

2017-11-17 16:55:34 946 3

翻译 Spark 好友推荐解决方案

目标：如果用户A与用户C同时都跟B是好友，但用户A与用户C又不是好友，则向用户A推荐C，向用户C推荐A，同时说明A与C的共同好友有哪些例如：有如下的好友关系：1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID，空格后的元素为用户的好友ID列表

2017-11-16 23:05:36 2264

原创 Hadoop/MapReduce 好友推荐解决方案

目标：如果用户A与用户C同时都跟B是好友，但用户A与用户C又不是好友，则向用户A推荐C，向用户C推荐A，同时说明A与C的共同好友有哪些例如：有如下的好友关系：1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID，空格后的元素为用户的好友ID列表其对应的好友

2017-11-16 22:27:48 1177

翻译 Spark 共同好友解决方案：求大量集合的两两交集

Hadoop/MapReduce 共同好友解决方案：求大量集合的两两交集import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBufferobject FindCommonFriends { def main

2017-11-16 16:12:47 3015

翻译 Hadoop/MapReduce 共同好友解决方案：求大量集合的两两交集

共同好友:求大量集合的两两交集目标：令U为包含所有用户的一个集合:{U1,U2,...,Un}，我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。前提:好友关系是双向的输入:...100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100,300600,100解决

2017-11-16 11:38:44 3725 1

翻译 Spark购物篮分析:关联规则挖掘

1、浅谈数据挖掘中的关联规则挖掘2、Hadoop/MapReduce购物篮分析:关联规则挖掘3、Spark购物篮分析过程分析:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBuff

2017-11-15 22:01:22 3857 3

翻译 Hadoop/MapReduce购物篮分析:关联规则挖掘

购物篮分析目的：查找一个给定超市或者网店购物篮中最常出现的商品对（阶数为1,2...）例如：如果有5个商品{A,B,C,D,E}，对应以下6个交易:Transaction 1:A,CTransaction 2:B,DTransaction 3:A,C,ETransaction 4:C,ETransaction 5:A,B,ETransaction 6:B,E我们的目标是构建项集

2017-11-15 17:45:19 3200 1

翻译 Spark移动平均：时间序列数据平均值

一、内存排序import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject MovingAverageInMemory { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppN

2017-11-15 15:42:35 2080

翻译 Hadoop/MapReduce移动平均：时间序列数据平均值

例子1：时间序列数据（股票价格）对于如下的收盘价序列数据：

2017-11-15 12:54:30 2768 2

翻译 Hadoop/MapReduce反转排序：控制规约器Reducer值的顺序

例子：计算一个给定文档集中单词的相对频度。目标是建立一个N*N矩阵M，其中N为所有给定文档的单词量，每个单元Mij包含一个特定上下文单词Wi与Wj共同出现的次数。为简单起见，将这个上下文定义为Wi的邻域。例如：给定以下单词：W1，W2，W3，W4，W5，W6如果定义一个单词的邻域为这个单词的前两个单词和后两个单词，那么这6个单词的邻域如下：单词领域+-2W1 W2，W3

2017-11-08 21:38:35 1361

原创 Spark的左外连接解决方案

Hadoop/MapReduce的左外连接解决方案1、Spark的左外连接解决方案之不使用letfOutJoin()import org.apache.spark.{SparkConf, SparkContext}object LeftOutJoinTest { def main(args: Array[String]): Unit = { //连接Spar

2017-11-08 20:05:20 3374

翻译 MapReduce/Hadoop的左外连接解决方案

要解决的问题：假设有两类数据：用户和交易。用户数据包括用户的地址信息，交易数据包括用户身份信息，但是不包括应乎地址的直接信息。给定users和transactions如下：users(user_id,location_id)transactions(transaction_id,product_id,user_id,quantity,amount)我们的目标是得出每个商品对应的唯一

2017-11-08 18:28:57 1162

原创 Spark的TopN解决方案（键唯一的情况、键不唯一的情况）

TopN问题：上星期访问次数最多的10个URL是哪些？所有猫中体重最大的10只猫是哪些？本文使用 MapReduce/Hadoop的TopN解决方案，假设所有输入键都是唯一的。也就是说，对于一个给定的输入集合{}，所有K都是唯一的。例如对于下面的猫，cat1不会再出现第二次输入：top10data.txtcat1,12cat2,13cat3,

2017-11-02 21:24:26 1047

原创 MapReduce/Hadoop的TopN解决方案之键不唯一的情况

一、MapReduce/Hadoop的TopN解决方案之键唯一的情况（点击打开链接）二、针对键不唯一的情况，即文件中可能出现多次关键字解决办法：先讲不唯一键转换为唯一键，即使用MapReduce合并键相同的项，再使用（一）所述的唯一键TopN方案即package topN_hadoop1;import java.io.IOException;

2017-11-02 16:45:09 772

原创 MapReduce/Hadoop的TopN解决方案之键唯一的情况

TopN问题：上星期访问次数最多的10个URL是哪些？所有猫中体重最大的10只猫是哪些？本文使用 MapReduce/Hadoop的TopN解决方案，假设所有输入键都是唯一的。也就是说，对于一个给定的输入集合{}，所有K都是唯一的。输入：cat.txt12,cat1,cat113,cat2,cat214,cat3,cat315,cat4,cat410,cat5,

2017-11-02 15:03:24 1171 4

原创 Spark的二次排序解决方案

一、MapReduce/Hadoop的二次排序解决方案（点击打开）二、Spark的二次排序解决方案方案1：同（一）的方案1，将一个给定键的所有值读取并缓存到一个List数组（Array）数据结构中，然后对这些值进行排序。如果内存不够放，则无法实现方案2：同（一）的方案2，“会为自然键增加部分或整个值来创建一个组合键以实现排序目标”三、代码实现（一）：使用Spark

2017-11-02 10:03:53 1313

原创 MapReduce/Hadoop的二次排序解决方案

二、为什么要进行二次排序？使用hadoop的map reduce将原始数据按照以年份-月份为key，温度为value进行操作，hadoop默认会将key进行排序，即按照年份-月份进行排序可以发现其key为有序的，而每个key中的value，也就是我们想要排序的温度值却无能为力。因此我们需要进行二次排序，即在根据key值排序的基础上再对value值进行排序。三、如何进行二次排序？方案1：对于每一个key的所有value值，在（二）代码的reduce函数中先将其读取和缓存到一个集合中，然后再对这个集

2017-11-01 21:45:01 1441 1

陈杰