自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (4)
  • 收藏
  • 关注

原创 分组TOP-N的mpreduce高效实现(采用了排序控制、分区控制、分组控制)

需求:有如下数据,求出每一个订单id中成交金额最大的三笔交易(字段分别为:订单id,用户id,商品名称,单价,数量),即分组求TOP-N。 order001,u001,小米6,1999.9,2 order001,u001,雀巢咖啡,99.0,2 order001,u001,安慕希,250.0,2 order001,u001,经典红双喜,200.0,4 or...

2018-11-24 17:05:06 390 4

原创 住房月租金预测

住房月租金的预测由于特征相对明显以及问题本身的复杂度较低,因此在预测中属于相对简单的,适合新手上手。本篇博客是根据自己的一系列经验以及开源社区的许多大佬整理而来,如有不合理的地方,还请多多批评指教,大家共同进步。本人看来,对这种预测问题,最重要的还是前期的数据探索以及特征工程,毕竟特征决定上限,算法只是逼近这个上限而已,所以本文的侧重点也在特征工程方面。(以下内容包含主要部分的代码及结果,需要数据...

2018-12-07 15:19:03 3528 15

原创 倒排索引创建(Mapreduce)

需求描述:假如有如下文本文件:a.txt                                      b.txt                                 c.txthello tom                           hello jack                            hello jerryhello je...

2018-11-22 15:03:03 203

原创 WordCount(mapreduce、yarn)

       作为一个hadoop的初学者,在经历了一系列繁琐复杂的hadoop集群环境安装配置之后,终于自主完成了一个wordcount程序。通过mapreduce进行分布式运算,并通过yarn进行运行调度。      wordcount是一个经典的案例,相信大家都熟悉。主要任务就是计算每个单词出现的次数并保存。实现该过程,主要包括两个阶段:map阶段: 将每一行文本数据变成<单词,1...

2018-11-21 13:29:27 351 2

原创 HDFS(分布式文件存储系统)

一 、HDFS命令行客户端的常用操作命令(1)start-dfs.sh :自动启动整个集群         stop-dfs.sh :自动停止整个集群(2)上传文件到hdfs中:    hadoop fs -put /本地文件  /HDFS路径(3)下载文件到客户端本地磁盘:   hadoop fs -get /hdfs中的路径   /本地磁盘目录(4)在hdfs中创建文件夹:...

2018-11-14 16:34:33 461

原创 LINUX常用命令

(1)su:切换用户身份语法:su [选项] 用户名- 表示用户的环境变量一起切换     $su - root(2)cd:切换目录/切换到根目录..上一级目录.当前目录- 显示并打开到上一次操作的目录~当前用户的宿主目录(3)ls:显示目录文件-a 显示所有文件,注意隐藏文件,特殊目录.和.. -l(long) 显示详细信息    ll  相当于 ls...

2018-11-08 16:11:13 250

原创 linux目录结构

/bin: (binaries) 存放系统命令的目录,所有用户都可以执行。/sbin : (super user binaries) 保存和系统环境设置相关的命令,只有超级用户可以使用这些命令,有些命令可以允许普通用户查看。/usr/bin:存放系统命令的目录,所有用户可以执行。这些命令和系统启动无关,单用户模式下不能执行/usr/sbin:存放根文件系统不必要的系统管理命令,超级用户...

2018-11-08 13:03:12 165

原创 【python linux下定时任务跑】crontab -e使用

/etc/crontab 就是crontab 的配置文件linux 下输入命令 crontab -l 查询当前系统用户设置了哪些执行任务linux 下输入命令 crontab -r 清空当前系统用户设置的所有任务linux 下输入命令 crontab -e 编辑和设置当前系统用户要自动执行的任务如:*/1 * * * *   /usr/bin/python /home/python/Desktop...

2018-06-29 15:39:59 719

python利用支持向量机SVM进行时间序列预测(数据+源码)

python利用支持向量机SVM进行时间序列预测, 包括数据和python代码 python利用支持向量机SVM进行时间序列预测, 包括数据和python代码

2020-05-21

全国各省市县sql.zip

全国各省市的MySQL文件,数据库包含的父级ID,需要的可以直接拿来用

2019-05-16

matlab禁忌搜索算法求解VRP问题

用matlab模拟禁忌搜索算法,来求解VRP问题。VRP是指一定数量的客户,各自有不同数量的货物需求,配送中心向客户提供货物,由一个车队负责分送货物,组织适当的行车路线,目标是使得客户的需求得到满足,并能在一定的约束下,达到诸如路程最短、成本最小、耗费时间最少等目的。

2017-11-03

MATLAB禁忌搜索算法求解TSP问题

通过禁忌搜索算法求解经典的TSP问题(MATLAB源代码),TSP问题为假设有一个旅行商人要拜访n个城市,他必须选择所要走的路径,路径的限制是每个城市只能拜访一次,而且最后要回到原来出发的城市。路径的选择目标是要求得的路径路程为所有路径之中的最小值。

2017-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除