- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 分组TOP-N的mpreduce高效实现(采用了排序控制、分区控制、分组控制)
需求:有如下数据,求出每一个订单id中成交金额最大的三笔交易(字段分别为:订单id,用户id,商品名称,单价,数量),即分组求TOP-N。 order001,u001,小米6,1999.9,2 order001,u001,雀巢咖啡,99.0,2 order001,u001,安慕希,250.0,2 order001,u001,经典红双喜,200.0,4 or...
2018-11-24 17:05:06 419 4
原创 住房月租金预测
住房月租金的预测由于特征相对明显以及问题本身的复杂度较低,因此在预测中属于相对简单的,适合新手上手。本篇博客是根据自己的一系列经验以及开源社区的许多大佬整理而来,如有不合理的地方,还请多多批评指教,大家共同进步。本人看来,对这种预测问题,最重要的还是前期的数据探索以及特征工程,毕竟特征决定上限,算法只是逼近这个上限而已,所以本文的侧重点也在特征工程方面。(以下内容包含主要部分的代码及结果,需要数据...
2018-12-07 15:19:03 3579 15
原创 倒排索引创建(Mapreduce)
需求描述:假如有如下文本文件:a.txt b.txt c.txthello tom hello jack hello jerryhello je...
2018-11-22 15:03:03 228
原创 WordCount(mapreduce、yarn)
作为一个hadoop的初学者,在经历了一系列繁琐复杂的hadoop集群环境安装配置之后,终于自主完成了一个wordcount程序。通过mapreduce进行分布式运算,并通过yarn进行运行调度。 wordcount是一个经典的案例,相信大家都熟悉。主要任务就是计算每个单词出现的次数并保存。实现该过程,主要包括两个阶段:map阶段: 将每一行文本数据变成<单词,1...
2018-11-21 13:29:27 390 2
原创 HDFS(分布式文件存储系统)
一 、HDFS命令行客户端的常用操作命令(1)start-dfs.sh :自动启动整个集群 stop-dfs.sh :自动停止整个集群(2)上传文件到hdfs中: hadoop fs -put /本地文件 /HDFS路径(3)下载文件到客户端本地磁盘: hadoop fs -get /hdfs中的路径 /本地磁盘目录(4)在hdfs中创建文件夹:...
2018-11-14 16:34:33 502
原创 LINUX常用命令
(1)su:切换用户身份语法:su [选项] 用户名- 表示用户的环境变量一起切换 $su - root(2)cd:切换目录/切换到根目录..上一级目录.当前目录- 显示并打开到上一次操作的目录~当前用户的宿主目录(3)ls:显示目录文件-a 显示所有文件,注意隐藏文件,特殊目录.和.. -l(long) 显示详细信息 ll 相当于 ls...
2018-11-08 16:11:13 275
原创 linux目录结构
/bin: (binaries) 存放系统命令的目录,所有用户都可以执行。/sbin : (super user binaries) 保存和系统环境设置相关的命令,只有超级用户可以使用这些命令,有些命令可以允许普通用户查看。/usr/bin:存放系统命令的目录,所有用户可以执行。这些命令和系统启动无关,单用户模式下不能执行/usr/sbin:存放根文件系统不必要的系统管理命令,超级用户...
2018-11-08 13:03:12 190
原创 【python linux下定时任务跑】crontab -e使用
/etc/crontab 就是crontab 的配置文件linux 下输入命令 crontab -l 查询当前系统用户设置了哪些执行任务linux 下输入命令 crontab -r 清空当前系统用户设置的所有任务linux 下输入命令 crontab -e 编辑和设置当前系统用户要自动执行的任务如:*/1 * * * * /usr/bin/python /home/python/Desktop...
2018-06-29 15:39:59 769
python利用支持向量机SVM进行时间序列预测(数据+源码)
2020-05-21
matlab禁忌搜索算法求解VRP问题
2017-11-03
MATLAB禁忌搜索算法求解TSP问题
2017-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人