- 博客(27)
- 收藏
- 关注
原创 Hbase进行分页显示
使用API对Hbase的存储的数据进行分页显示:思路:使用pagefilter和rowfilter(比较器使用GREATER),前者控制每页显示数目,后者控制当前页的起始元素。分类:1、当输入页数小于等于1时,直接显示第一页,2、当输入页数为2时,求出第一页的最后一个行键,作为比较值,3、当输入页数大于等于3时,递归调用方法,求出前一页的最后一个行键即可实现代码:package lpj.hbase...
2018-03-31 22:40:51 1196 2
转载 Python3环境安装Scrapy爬虫框架
转自:https://cloud.tencent.com/developer/article/1004722Scrapy安装介绍Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上。下面说明Python3环境下的安装过程。Scrapy依赖的库比较多,至少需要依赖库有Twisted 14.0,lxml 3.4,pyOpenSSL 0.14。而在不同平台环境又...
2018-03-28 22:21:43 233
原创 linux安装Python
1、安装一些依赖的软件包yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel2、...
2018-03-28 20:22:35 151
原创 python日期操作
1. 日期输出格式化所有日期、时间的api都在datetime模块内。1. datetime => stringnow = datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S')#输出2012-03-05 16:26:23.870105strftime是datetime类的实例方法。2. string => datetim...
2018-03-28 19:24:42 1071
原创 python文件、文件夹操作
文件相关创建操作见:http://www.runoob.com/python/python-files-io.html文件夹操作使用os判断文件是否存在import osimport shutilos.remove(path) #删除文件os.removedirs(path) #删除空文件夹os.mkdir(path) #创建文件夹os.makedirs(path)#级联创建文件...
2018-03-27 21:53:56 244
转载 windows下面安装Python和pip终极教程
转自:https://blog.csdn.net/lengqi0101/article/details/619213991.安装python 第一步,windows下面的Python安装一般是通过软件安装包安装而不是命令行,所以我们首先要在Python的官方主页上面下载最新的Python安装包。 下载地址是:https://www.python.org/downloads/ 在安装完成之后,打开...
2018-03-27 08:12:31 1826
原创 MapReduce案例12——倒序索引
倒排索引(Inverted Index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两份数据:mapreduce-4-1.txthuangbo love xuzhenghuangxiaoming love baby huangxiaoming love yangmilia...
2018-03-22 19:03:04 978
原创 MapReduce案例10——多数据文件依赖计算
题目:描述:求所有数对应位置的叠加和 比如 0001.txt 文件有数据: 1 2 3 4 5 .....0002.txt 文件有数据: 10 10 10 10 10 返回结果是: 1 1 2 3 3 6 4 10 5 15 ..... 10 25 ...
2018-03-21 23:04:32 382 1
转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用
转自:http://blog.jobbole.com/110388/ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google...
2018-03-21 21:10:56 201
原创 MapReduce案例11——影评分析6/7(特定类型电影topN)
题目:现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (199...
2018-03-18 21:44:52 1447
原创 MapReduce案例11——影评分析5(求特定年份最好看的10部电影)
题目:现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (199...
2018-03-18 20:15:56 1851
原创 MapReduce案例11——影评分析4(分析某个用户的评分与大众评分的差别)
题目:现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (199...
2018-03-18 17:12:36 1686
原创 MapReduce案例11——影评分析3(特定电影不同年龄段平均评分)
题目:现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (199...
2018-03-18 12:48:30 2122 1
原创 MapReduce案例11——影评分析2(三表联合查询)
题目要求:(MapReduce案例11——影评分析1)为基础现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies....
2018-03-18 11:51:45 3033
原创 MapReduce案例11——影评分析1(两表联合查询)
多表联合常用方式有两种:reduceJoin和mapjoin,其中reducejoin容易造成数据倾斜,对于并发执行的数据文件来说,常用mapjoin,在mapper阶段就完成数据连接,一般不会造成数据倾斜,即使倾斜,数据量也会很小。使用条件,一张数据量很大的表和一张数据量很小的表,将数据量小的表提前加载到各个节点的内存中去,在执行map阶段,通过内连接完成组合。题目:现有如此三份数据:1、us...
2018-03-17 23:24:05 1304 7
原创 MapReduce案例9——多个数字文件的数据排序并添加序号(添加可并行方法)
题目:数字排序并加序号源数据:2326543215756652235956226509226546最张结果:1 22 63 154 225 266 327 328 549 9210 65011 65412 75613 595614 65223一定要考虑 当数据量一大的时候, 你的实现思路能否使用。解题思路:当有多...
2018-03-17 13:07:35 3311 3
原创 MapReduce案例8——求最频繁访问数据表以及最频繁访问的用户和时长
题目:user1 1:00 u1 1.5user2 2:00 u2 0.5user3 3:00 u3 0.1user4 4:00 u1 1.4user5 5:00 u4 1.3user6 6:00 u4 1.9user7 7:00 u5 2.4user8 8:00 u1 0.1user9 9:00 u6 0.6user10 10:00 u1 0.5user11 1:00 u2 ...
2018-03-17 11:46:28 1106
原创 MapReduce案例7——求版本信息变动
题目:20170308,黄渤,光环斗地主,8,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,5,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,7,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京20170308,黄渤,光环斗地主,9,360手机助手,0.2版本,北京20170308,黄渤...
2018-03-17 10:26:18 526
原创 MapReduce案例6——学生成绩增强版
题目及数据:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,75english,liuyifei,85,41,75,21,85,96,14algorithm,...
2018-03-16 22:47:25 2992
原创 MapReduce案例5——求互粉好友对
题目:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K求互粉好友对:例如A的粉丝有B,B的粉丝有A,则为一对互粉好友对思路:将数据按照从小到大的顺序形成好友对,作...
2018-03-16 21:30:38 1668
原创 MapReduce案例4——求两两共同好友
题目如下:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K以上是数据:A:B,C,D,F,E,O表示:B,C,D,E,F,O是A用户的好友。1、求所有...
2018-03-16 21:11:06 1064
原创 MapReduce案例3——求简单数据去重
数据去重源数据:2012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 c2012-3-1 b2012-3-2 a2012-3-3 b2012-3-4 d2012-3-5 a2012-3-6 c2012-3-7 d2012-3-3 c最终结果:2012-3-...
2018-03-16 20:22:40 441
原创 MapReduce案例2——求学生平均成绩
题目:计算学生考试平均成绩 源数据:张三 98李四 96王五 95张三 90李四 92王五 99张三 80李四 90王五 94张三 82李四 92最终答案:张三 98李四 87王五 86上面的答案仅是格式,非正确数据思路:姓名作为key,成绩作为value,在map分组,在reduce中求平均值类似于SQL中的select name, avg(score) ...
2018-03-16 20:12:57 5189 1
原创 MapReduce案例1——求学生成绩普通版
使用MapReduce求学生成绩:基础版computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85computer,huanglei,99computer,liujialing,85computer,liuyifei,75computer,huangdatou,48computer,huangj...
2018-03-16 19:59:08 1955 2
原创 有用信息合集
git码云使用:http://blog.csdn.net/fox9916/article/details/78253714eclipse连接码云:http://blog.csdn.net/u011548068/article/details/72954810爬虫案例:https://zhuanlan.zhihu.com/p/27938007sqoop命令解释:https://blog.csdn.n...
2018-03-06 19:04:55 182
转载 Java 8系列之重新认识HashMap
Java 8系列之重新认识HashMap前利 ·2016-06-24 11:58摘要HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK(Java Developmet Kit)版本的更新,JDK1.8对HashMap底层的实现进行了优化,例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别,深入探讨HashMap的结构实现和功能原理...
2018-03-03 19:15:16 102
原创 排序算法总结
常见排序算法(百度百科)快速排序、希尔排序、堆排序、直接选择排序不是稳定的排序算法,而基数排序、冒泡排序、直接插入排序、折半插入排序、归并排序是稳定的排序算法。◆稳定排序:假设在待排序的文件中,存在两个或两个以上的记录具有相同的关键字,在用某种排序法排序后,若这些相同关键字的元素的相对次序仍然不变,则这种排序方法是稳定的。其中冒泡,插入,基数,归并属于稳定排序,选择,快速,希尔,堆属于不稳定排序。...
2018-03-03 17:51:17 246
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人