自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈杰

专业写Bug

  • 博客(22)
  • 资源 (5)
  • 收藏
  • 关注

原创 Hadoop/MapReduce 查找、统计和列出大图中的所有三角形

package cjtriangle;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.co

2017-11-26 23:28:53 1204

原创 Hadoop/MapReduce、Spark 朴素贝叶斯分类器分类符号数据

Hadoop/MapReduce 朴素贝叶斯分类器分类符号数据

2017-11-25 23:48:12 1628 2

原创 Hadoop/MapReduce 及 Spark KNN分类算法实现

如何为R中的每一个点找到它合适的分类呢?KNN(K邻近)算法:(1)确定K(K的选择取决于具体的数据和项目需求)(2)计算新输入,如【1000;3.0,3.0】与所有训练数据之间的距离(与K一样,距离函数的选择也取决于数据的类型)(3)对距离排序,并根据前K个最小距离确定K个邻近。(4)搜集这些邻近所属的类别(5)根据多数投票确定类别通俗来说有一群土豪:土豪1,土豪2,土豪3,土豪4...有一群屌丝,屌丝1,屌丝2,屌丝3,屌丝4...现在来了一个人,如何判断这个人是屌丝还是土豪呢?

2017-11-18 20:56:48 3903 1

原创 Hadoop/MapReduce 及 Spark KMeans聚类算法实现

package kmeans;import java.io.BufferedReader;import java.io.DataInput;import java.io.DataOutput;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.ArrayL

2017-11-18 13:48:41 1624 1

翻译 Spark 使用马尔可夫模型的智能邮件营销

目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销至于营销的商品内容,可以根据其他推荐算法的结果。输入:,,,...ZSY40NY

2017-11-17 19:07:34 1117 1

翻译 Hadoop/MapReduce 使用马尔可夫模型的智能邮件营销

目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销至于营销的商品内容,可以根据其他推荐算法的结果。输入:,,,...ZSY40NYPS

2017-11-17 16:55:34 907 3

翻译 Spark 好友推荐解决方案

目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些例如:有如下的好友关系:1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表

2017-11-16 23:05:36 2225

原创 Hadoop/MapReduce 好友推荐解决方案

目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些例如:有如下的好友关系:1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表其对应的好友

2017-11-16 22:27:48 1146

翻译 Spark 共同好友解决方案:求大量集合的两两交集

Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBufferobject FindCommonFriends { def main

2017-11-16 16:12:47 2989

翻译 Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集

共同好友:求大量集合的两两交集目标:令U为包含所有用户的一个集合:{U1,U2,...,Un},我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。前提:好友关系是双向的输入:...100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100,300600,100解决

2017-11-16 11:38:44 3601 1

翻译 Spark购物篮分析:关联规则挖掘

1、浅谈数据挖掘中的关联规则挖掘2、Hadoop/MapReduce购物篮分析:关联规则挖掘3、Spark购物篮分析过程分析:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBuff

2017-11-15 22:01:22 3813 3

翻译 Hadoop/MapReduce购物篮分析:关联规则挖掘

购物篮分析目的:查找一个给定超市或者网店购物篮中最常出现的商品对(阶数为1,2...)例如:如果有5个商品{A,B,C,D,E},对应以下6个交易:Transaction 1:A,CTransaction 2:B,DTransaction 3:A,C,ETransaction 4:C,ETransaction 5:A,B,ETransaction 6:B,E我们的目标是构建项集

2017-11-15 17:45:19 3085 1

翻译 Spark移动平均:时间序列数据平均值

一、内存排序import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject MovingAverageInMemory { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppN

2017-11-15 15:42:35 2056

翻译 Hadoop/MapReduce移动平均:时间序列数据平均值

例子1:时间序列数据(股票价格)对于如下的收盘价序列数据:

2017-11-15 12:54:30 2601 1

翻译 Hadoop/MapReduce反转排序:控制规约器Reducer值的顺序

例子:计算一个给定文档集中单词的相对频度。目标是建立一个N*N矩阵M,其中N为所有给定文档的单词量,每个单元Mij包含一个特定上下文单词Wi与Wj共同出现的次数。为简单起见,将这个上下文定义为Wi的邻域。例如:给定以下单词:W1,W2,W3,W4,W5,W6如果定义一个单词的邻域为这个单词的前两个单词和后两个单词,那么这6个单词的邻域如下:单词    领域+-2W1    W2,W3

2017-11-08 21:38:35 1290

原创 Spark的左外连接解决方案

Hadoop/MapReduce的左外连接解决方案1、Spark的左外连接解决方案之不使用letfOutJoin()import org.apache.spark.{SparkConf, SparkContext}object LeftOutJoinTest { def main(args: Array[String]): Unit = { //连接Spar

2017-11-08 20:05:20 3353

翻译 MapReduce/Hadoop的左外连接解决方案

要解决的问题:假设有两类数据:用户和交易。用户数据包括用户的地址信息,交易数据包括用户身份信息,但是不包括应乎地址的直接信息。给定users和transactions如下:users(user_id,location_id)transactions(transaction_id,product_id,user_id,quantity,amount)我们的目标是得出每个商品对应的唯一

2017-11-08 18:28:57 1144

原创 Spark的TopN解决方案(键唯一的情况、键不唯一的情况)

TopN问题:上星期访问次数最多的10个URL是哪些?所有猫中体重最大的10只猫是哪些?本文使用 MapReduce/Hadoop的TopN解决方案,假设所有输入键都是唯一的。也就是说,对于一个给定的输入集合{},所有K都是唯一的。例如对于下面的猫,cat1不会再出现第二次输入:top10data.txtcat1,12cat2,13cat3,

2017-11-02 21:24:26 1026

原创 MapReduce/Hadoop的TopN解决方案之键不唯一的情况

一、MapReduce/Hadoop的TopN解决方案之键唯一的情况(点击打开链接)二、针对键不唯一的情况,即文件中可能出现多次关键字解决办法:先讲不唯一键转换为唯一键,即使用MapReduce合并键相同的项,再使用(一)所述的唯一键TopN方案即package topN_hadoop1;import java.io.IOException;

2017-11-02 16:45:09 747

原创 MapReduce/Hadoop的TopN解决方案之键唯一的情况

TopN问题:上星期访问次数最多的10个URL是哪些?所有猫中体重最大的10只猫是哪些?本文使用 MapReduce/Hadoop的TopN解决方案,假设所有输入键都是唯一的。也就是说,对于一个给定的输入集合{},所有K都是唯一的。输入:cat.txt12,cat1,cat113,cat2,cat214,cat3,cat315,cat4,cat410,cat5,

2017-11-02 15:03:24 1153 4

原创 Spark的二次排序解决方案

一、MapReduce/Hadoop的二次排序解决方案(点击打开)二、Spark的二次排序解决方案方案1:同(一)的方案1,将一个给定键的所有值读取并缓存到一个List数组(Array)数据结构中,然后对这些值进行排序。如果内存不够放,则无法实现方案2:同(一)的方案2,“会为自然键增加部分或整个值来创建一个组合键以实现排序目标”三、代码实现(一):使用Spark

2017-11-02 10:03:53 1283

原创 MapReduce/Hadoop的二次排序解决方案

二、为什么要进行二次排序?使用hadoop的map reduce将原始数据按照以年份-月份为key,温度为value进行操作,hadoop默认会将key进行排序,即按照年份-月份进行排序可以发现其key为有序的,而每个key中的value,也就是我们想要排序的温度值却无能为力。因此我们需要进行二次排序,即在根据key值排序的基础上再对value值进行排序。三、如何进行二次排序?方案1:对于每一个key的所有value值,在(二)代码的reduce函数中先将其读取和缓存到一个集合中,然后再对这个集

2017-11-01 21:45:01 1384 1

基于JavaWeb的社交网络项目后台

基于JavaWeb的论坛项目,提供API供前端调用,支持安卓、JSP、HTML等调用

2018-11-20

基于JavaWeb的论坛项目

基于JavaWeb的论坛项目,采用JSP Servlet JDBC 单例模式等技术

2018-11-20

echarts.js图表插件带坐标点和放大缩小地图

echarts.js图表插件带坐标点和放大缩小地图echarts.js图表插件带坐标点和放大缩小地图

2018-11-20

Hadoop bin

hadoop在windows上运行需要winutils支持和hadoop.dll等文件

2017-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除