Hadoop Web项目--Friend Find系统

最新推荐文章于 2025-09-30 15:21:17 发布

原创

最新推荐文章于 2025-09-30 15:21:17 发布 · 1.8w 阅读

61 ·

CC 4.0 BY-SA版权

这是一个使用Hadoop2.6、Myeclipse10.0等技术实现的Friend Find系统。项目涉及数据探索、预处理、建模和推荐功能，通过聚类算法进行用户推荐。详细步骤包括数据库维护、聚类中心计算等，项目源码可在GitHub上找到。

项目使用软件：Myeclipse10.0，JDK1.7，Hadoop2.6，MySQL5.6，EasyUI1.3.6，jQuery2.0，Spring4.1.3，

Hibernate4.3.1，struts2.3.1，Tomcat7 ，Maven3.2.1。

项目下载地址：https://github.com/fansy1990/friend_find ，项目部署参考：http://blog.csdn.net/fansy1990/article/details/46481409 。

Hadoop Web项目--Friend Find系统

1. 项目介绍

Friend Find系统是一个寻找相似用户的系统。用户填写自己的信息后就可以在本系统内找到和自己志同道合的朋友。本系统使用的是在http://stackoverflow.com/网站上的用户数据。Stack Overflow是一个程序设计领域的问答网站，隶属Stack Exchange Network。网站允许注册用户提出或回答问题，还允许对已有问题或答案加分、扣分或进行修改，条件是用户达到一定的“声望值”。“声望值”就是用户进行网站交互时能获取的分数。当声望值达到某个程度时，用户的权限就会增加，比如声望值超过50点就可以评论答案。当用户的声望值达到某个阶段时，网站还会给用户颁发贡献徽章，以此来激励用户对网站做出贡献。该项目建立在下面的假设基础上，假设用户对于一个领域问题的“态度”就可以反映出该用户的价值取向，并依据此价值取向来对用户进行聚类分组。这里的态度可以使用几个指标属性来评判，在本系统中原始数据（即用户信息数据）包含的属性有多个，从中挑选出最能符合用户观点的属性，作为该用户的“态度”进行分析。这里挑选的属性是：reputation，upVotes，downVotes，views，即使用这4个属性来对用户进行聚类。同时，这里使用MR实现的Clustering by fast search and find of density peaks聚类算法，这里的实现和 http://blog.csdn.net/fansy1990/article/details/46364697这里的实现原始是不同的。

2. 项目运行

2.1 准备

1. 下载工程，参考上面的连接 https://github.com/fansy1990/friend_find，并参考 http://blog.csdn.net/fansy1990/article/details/46481409把它部署上去；

1）注意根据数据库的配置，在mysql数据库中新建一个friend数据库；

2）直接运行部署工程，即可在数据库中自动建立相应的表，包括：hconstants、loginuser、userdata、usergroup，其中loginuser是用户登录表，会自动初始化（默认有两个用户admin/admin、test/test），hconstants是云平台参数数据表、userdata存储原始用户数据、usergroup存储聚类分群后每个用户的组别。

2. 部署云平台Hadoop2.6（伪分布式或者完全分布式都可以，本项目测试使用伪分布式），同时需要注意：设置云平台系统linux的时间和运行tomcat的机器的时间一样，因为在云平台任务监控的时候使用了时间作为监控停止的信号（具体可以参考后面）。

3. 使用MyEclipse的export功能把所有源码打包，然后把打包后的jar文件拷贝到hadoop集群的$HADOOP_HOME/share/hadoop/mapreduce/目录下面。

2.2 运行

1. 初始化相应的表

初始化集群配置表hconstants

访问系统首页：http://localhost/friend_find (这里部署的tomcat默认使用80端口，同时web部署的名称为friend_find),即可看到下面的页面(系统首页)：

点击登录，即可看到系统介绍。

点击初始化表，依次选择对应的表，即可完成初始化

点击Hadoop集群配置表，查看数据：

这里初始化使用的是lz的虚拟机的配置，所以需要修改为自己的集群配置，点击某一行数据，在toolbar里即可选择修改或保存等。

2. 系统原始文件：

系统原始文件在工程的：

3. 项目实现流程

项目实现的流程按照系统首页左边导航栏的顺序从上到下运行，完成数据挖掘的各个步骤。

3.1 数据探索

下载原始数据ask_ubuntu_users.xml 文件，打开，可以看到：

原始数据一共有19550条记录，去除第1、2、最后一行外其他都是用户数据（第3行不是用户数据，是该网站的描述）；

用户数据需要使用一个主键来唯一标示该用户，这里不是选择Id，而是使用EmailHash（这里假设每个EmailHash相同的账号其是同一个人）。使用上面的假设后，对原始数据进行分析（这里是全部导入到数据库后发现的），发现EmailHash是有重复记录的，所以这里需要对数据进行预处理--去重；

3.2 数据预处理

1. 数据去重

数据去重采用云平台Hadoop进行处理，首先把ask_ubuntu_users.xml文件上传到云平台，接着运行MR任务进行过滤。

2. 数据序列化

由于计算用户向量两两之间的距离的MR任务使用的是序列化的文件，所以这里需要对数据进行序列化处理；

3.3 建模

建模即使用快速聚类算法来对原始数据进行聚类，主要包括下面几个步骤：

1. 计算用户向量两两之间的距离；

2. 根据距离求解每个用户向量的局部密度；

3. 根据1.和2.的结果求解每个用户向量的最小距离；

4. 根据2，3的结果画出决策图，并判断聚类中心的局部密度和最小距离的阈值；

5. 根据局部密度和最小距离阈值来寻找聚类中心向量；

6. 根据聚类中心向量来进行分类；

3.4 推荐

建模后的结果即可以得到聚类中心向量以及每个分群的百分比，同时根据分类的结果来对用户进行组内推荐。

项目流程图如下：

4. 项目功能及实现原理

项目功能主要包括下面：

4.1 数据库表维护

数据库表维护主要包括：数据库表初始化，即用户登录表和Hadoop集群配置表的初始化；数据库表增删改查查看：即用户登录表、用户数据表、Hadoop集群配置表的增删改查。

数据库表增删改查使用同一个DBService类来进行处理，（这里的DAO使用的是通用的）如果针对每个表都建立一个DAO，那么代码就很臃肿，所以这里把这些数据库表都是实现一个接口ObjectInterface，该接口使用一个Map来实例化各个对象。

public interface ObjectInterface {
	/**
	 * 不用每个表都建立一个方法，这里根据表名自动装配
	 * @param map
	 * @return
	 */
	public  Object setObjectByMap(Map<String,Object> map);
}

在进行保存的时候，直接使用前台传入的表名和json字符串进行更新即可

/**
	 * 更新或者插入表
	 * 不用每个表都建立一个方法，这里根据表名自动装配
	 * @param tableName
	 * @param json
	 * @return
	 */
	public boolean updateOrSave(String tableName,String json){
		try{
			// 根据表名获得实体类，并赋值
			Object o = Utils.getEntity(Utils.getEntityPackages(tableName),json);
			baseDao.saveOrUpdate(o);
			log.info("保存表{}！",new Object[]{tableName});
		}catch(Exception e){
			
			e.printStackTrace();
			return false;
		}
		return true;
	}

/**
	 * 根据类名获得实体类
	 * @param tableName
	 * @param json
	 * @return
	 * @throws ClassNotFoundException 
	 * @throws IllegalAccessException 
	 * @throws InstantiationException 
	 * @throws IOException 
	 * @throws JsonMappingException 
	 * @throws JsonParseException 
	 */
	@SuppressWarnings("unchecked")
	public static Object getEntity(String tableName, String json) throws ClassNotFoundException, InstantiationException, IllegalAccessException, JsonParseException, JsonMappingException, IOException {
		Class<?> cl = Class.forName(tableName);
		ObjectInterface o = (ObjectInterface)cl.newInstance();
		Map<String,Object> map = new HashMap<String,Object>();
		ObjectMapper mapper = new ObjectMapper();
		try {
			//convert JSON string to Map
			map = mapper.readValue(json, Map.class);
			return o.setObjectByMap(map);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

4.2 数据预处理

数据预处理包括文件上传、文件去重、文件下载、数据入库、DB过滤到HDFS、距离计算、最佳DC。

1. 文件上传

文件上传即是把文件从本地上传到HDFS，如下界面：

这里上传的即是ask_ubuntu_users.xml 全部数据文件。上传直接使用FileSystem的静态方法下载，如下代码（）：

fs.copyFromLocalFile(src, dst);

上传成功即可显示操作成功，这里使用aJax异步提交：

// =====uploadId,数据上传button绑定 click方法
	$('#uploadId').bind('click', function(){
		var input_i=$('#localFileId').val();
		// 弹出进度框
		popupProgressbar('数据上传','数据上传中...',1000);
		// ajax 异步提交任务
		callByAJax('cloud/cloud_upload.action',{input:input_i});
	});

其中调用aJax使用一个封装的方法，以后都可以调用，如下：

// 调用ajax异步提交
// 任务返回成功，则提示成功，否则提示失败的信息
function callByAJax(url,data_){
	$.ajax({
		url : url,
		data: data_,
		async:true,
		dataType:"json",
		context : document.body,
		success : function(data) {
//			$.messager.progress

最低0.47元/天解锁文章

10 条评论

甲仙芋头小眷村 2020.05.15
老师这个好像有点问题在前端输入一个新的userid查询其分组，表格信息不会更新，还会是代码里写的那个value值
- qq_37834336回复甲仙芋头小眷村 2020.05.19
  前辈您好，这个项目我也遇到了些问题，可以请教一下您么[face]monkey:32.gif[/face][face]monkey:32.gif[/face]

甲仙芋头小眷村 2020.05.15
求问老师我复现您的项目推荐用户表格不会在前端展示出来控制台会输出推荐用户的详细信息求指教
- qq_37834336回复甲仙芋头小眷村 2020.05.19
  前辈您好，这个项目我也遇到了些问题，可以请教一下您么[face]monkey:32.gif[/face][face]monkey:32.gif[/face]

甲仙芋头小眷村 2020.05.15
求问老师我复现您的项目推荐用户表格不会在前端展示出来控制台会输出推荐用户的详细信息求指教

甲仙芋头小眷村 2020.05.15
老师您好，求问我在复现的时候最终推荐的用户信息无法在前段展示出来详细信息控制台会有具体信息同时还会报warn：HqlSqlWalker:995 - [DEPRECATION] Encountered positional parameter near line 1, column 69. Positional parameter are considered deprecated; use named parameters or JPA-style positional parameters instead. 可以给一下意见吗

DC_mag 2017.04.26
请问楼主，为什么我在进行距离计算的时候会先成功计算几条，然后一直retrying conncet to server:40603或者类似的没有设置的端口呢。我在进行去重操作的时候也有retrying to ... 但是最后成功了，请问楼主，这个是什么原因呢 ps:我连的虚拟机上的hadoop
- fansy1990回复DC_mag 2017.07.01
  [reply]DC_mag[/reply] 任务都是MR的，确认集群配置是否没有问题？在运行任务的时候，看8088的端口日志是否有提示信息。

gaoguandong 2017.03.21
楼主，我是初学者，看这个系统平台的搭建是在Win7上，用到的Hadoop也是安装在Win7?不是Ubuntu?看了“2.1准备”中的2，感觉自己混乱了，请具体给指导一下吧，万分感谢！
- fansy1990回复gaoguandong 2017.07.01
  [reply]gaoguandong[/reply] 系统搭建在win7，集群在linux，win7上eclipse远程调度linux的集群

Xieyigang 2016.04.23
去除重复数据找到最大声望的emailhash程序似乎写的不对。逻辑找出来的应该是最小声望用户。我认为应该是： int repM=-1; ... if(tmpRep>repM)
- fansy1990回复Xieyigang 2016.04.24
  [reply]Xieyigang[/reply] 对，描述的逻辑和代码实现不一样；其实按照业务的逻辑来说，这里可以有多种算法的，比如针对相同的可以取最小值、最大值、平均值、中位数都可以。

fmc89 2015.10.09
博主：您好！非常感谢您的分享我想问您这篇博文和你那本书上的系统，功能不一样吧那本书的代码可以在那里找到？谢谢
- fansy1990回复fmc89 2015.10.15
  [reply]fmc89[/reply] 对，的确是不一样。因为后面再hadoop2上面开发的时候，一些功能被忽略了。项目只是供大家学习的一个工具而已，重要的是学到东西就好。