wenpu_Di
码龄10年
关注
提问 私信
  • 博客:60,909
    社区:985
    61,894
    总访问量
  • 37
    原创
  • 357,972
    排名
  • 11
    粉丝
  • 0
    铁粉

个人简介:内心的强大才是真正的强大

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-07-02
博客简介:

wenpu_Di

查看详细资料
个人成就
  • 获得21次点赞
  • 内容获得3次评论
  • 获得55次收藏
  • 代码片获得178次分享
创作历程
  • 1篇
    2017年
  • 14篇
    2016年
  • 27篇
    2015年
成就勋章
TA的专栏
  • c++学习历程
    14篇
  • c++习题练习集
    6篇
  • 我的小项目
    3篇
  • c++数据结构
    4篇
  • Hadoop学习
    8篇
  • Hive学习
    3篇
  • 生活杂谈
    1篇
  • Linux学习
    2篇
  • javascript笔记
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

表单验证学习

<html><script type="text/javascript"> function check(){ if(document.getElementById("username").value==""){ alert("用户名不能为空!"); document.getElementById("username").focus(); return false; }
原创
发布博客 2017.01.15 ·
365 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用MapReduce解决在海量数据中求Top K个数<转>

package jtlyuan.csdn; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path;
转载
发布博客 2016.12.11 ·
567 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop Partition使用实例<转>

Hadoop Partition使用实例<转> 如何使用Hadoop的Partitioner Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的一些特殊需求。今天散仙要说的这个分区函数Partitioner,也是一样如此,下面我们先来看下Partitioner的作用: 对map端输出的数据key作一个散列,使数据能够均匀分布在各个
转载
发布博客 2016.12.11 ·
989 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux中文件中字符替换

方法有二:(一)通过vi编辑器来替换。参考博文:http://www.linuxdiyf.com/viewarticle.php?id=99843http://kingaragorn.javaeye.com/blog/467308vi/vim 中可以使用 :s 命令来替换字符串。以前只会使用编辑软件进行替换,今天发现该命令有很多种写法(vi 真是强大啊,还有很多需要学习),记录几种在此,方便以后查询
转载
发布博客 2016.12.10 ·
1489 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Map Join和Reduce Join的区别

MapReduce Join对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1 思路 1.1 reduce join在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是data2。因为在shuffle阶
转载
发布博客 2016.12.08 ·
2744 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

awk脚本实现wordcount

今天学习了linux下的shell脚本, 写了一个小例子wordcount: 1.数据文件$ cat word.txt baidu 100 5000 pukai 100 5000 6000diwenpu di di di wen wenpu p u2.awk脚本 $ cat ak.awk #!/bin/awk -f# 开始BEGIN{}# 运行中{ for(i=1;i<
原创
发布博客 2016.12.02 ·
1714 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

第一次面试

第一次面试实习生就这么失败了。。。。确实是自己的能力不够的原因!继续加油,努力!!不放弃
原创
发布博客 2016.12.01 ·
220 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive优化问题

1.HADOOP计算框架特性 • 数据量大不是问题,数据倾斜是个问题。 • jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 • sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。
转载
发布博客 2016.11.24 ·
376 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive中的排序

Hive编程指南,记录排序的规则: Hive中的排序: 1.order by: 会对所有的数据进行一个全局排序,所有的数据都会通过一个Reduce进行处理,对于 大规模的数据会消耗特别长的时间。 2.sort by: 其只会在在每个reduce中对数据进行排序,也就是执行一个局部排序的过程。这可以 保证每个reduce的输出都是有序的(并非全局有序)。这
原创
发布博客 2016.11.24 ·
828 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce处理过程分析

Map阶段: 1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。 2. 调用job.setPartitionerClass(),对指定的key落在具体的分区 3. 每个分区内又调用job.setSortComparatorClass()设置的key比较函数类排序(如果没有
原创
发布博客 2016.11.24 ·
491 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive常规操作总结

Hive目录的说明 ● bin: 包含了各种Hive服务的可执行文件例如CLI命令行界面 ● .hiverc: 位于用户的主目录下的文件,如果不存在可以创建一个 里边的命令可以在启动CLI时,会先自动执行! ● metastore(元数据存储): Hive所需要的组件只有元数据信息是hadoop没有的,它存储 了表的
原创
发布博客 2016.11.21 ·
518 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce优化问题

总结了一下MR优化问题,涉及到hadoop1.0和2.0的调优 1. 从集群的性能方面: 集群能够同时运行Map或者Reduce任务的最大任务数 假设一台机器最多能同时运行10个Map任务和5个Reduce任务, 这个集群有100台服务器,那么map的任务槽就是1000,Reduce的任务槽就是500 合理的设置Map和Reduce任务数: map:具体
原创
发布博客 2016.11.21 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce表关联

今天重新学习了表关联,为了以后用到的时候能够快速想到。这里记录下来设计的思想: 由于多表关联跟单表关联一样,甚至如果是两个表,那么的结构更加清新,所以只记录单表关联 单表关联: 所谓单表关联,即使特殊的多表关联,表关联一个思想就是区分出左右表,最后求笛卡尔积即可! 实例: child parent tom lucy tom jack jone luc
原创
发布博客 2016.11.20 ·
477 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop作业构建中的主要方法

在主函数里边有几个方法的说明:Configuration conf = new Configuration(); // 配置设定 Job job = Job.getInstance(conf, “word count”); // 得到作业 job.setJarByClass(WordCount.class); // 主类名job.setOutputKeyClass(); //
原创
发布博客 2016.11.19 ·
381 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Reduce端的Iterable集合的理解:

Iterable: 1.value里边的每个数值在内存中是用完全二叉树存储的形式存储的(小顶堆) 2.小顶堆的顶端(根节点)存储着按排序后的最大或最小值(小顶堆的特性) (到底是最大还是最小根据你的排序规则确定) 3.每次循环一次,小顶堆的堆顶数值都会改变,但是不变的是顶堆的数一定是最大或最小值(小顶堆的特性) 4.当第一次调用这个reduce(Text,Iterable,Context)
原创
发布博客 2016.11.18 ·
717 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

模拟操作系统进程调度算法

先来先服务算法: 1.链表存储 2.输入要有先后顺序(没有设计排序算法)#include<iostream>#include <conio.h>#include<stdlib.h>#include<time.h>#include <windows.h>using namespace std;#define NULL 0int N = 0;//全局变量N,节点个数//进程节点type
原创
发布博客 2015.11.09 ·
1424 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

舞伴问题(链队)

问题: 假设在周末舞会上,男士们和女士们进入舞厅时,各自排成一队。 跳舞开始时,依次从男队和女队的队头上各出一人配成舞伴。 若两队初始人数不相同,则较长的那一队中未配对者等待下一轮舞曲。 现要求写一算法模拟上述舞伴配对问题 程序功能: 能够使男女依次组合,如若男女相等配对完成,否则输出等待下一轮的男士或者女士。 算法: 学习队列于是采用链队
原创
发布博客 2015.09.17 ·
3058 阅读 ·
1 点赞 ·
2 评论 ·
19 收藏

计算器(栈实现)

算法: 1.先利用ARR[]存储所需要计算的表达式字符串; opnd存储操作数的栈,optr存储运算符的栈; arr[]存储连续的数字字符,然后转化的整型数; 2.依次读入ARR[]的每个字符(flag为标记),如果是数字字符转化后入opnd栈; 3.如果是运算符,则比较读入的字符与optr栈顶的运算符,根据事先确定的顺序决定是继续读入,是提取opnd的两个操作数计算,还是消除括号; 4
原创
发布博客 2015.09.12 ·
639 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

第七章:指针(二级指针与多维数组)

1.创建一个数组,其中包含三个数组指针,每个数组都可以包含六个int类型的值,把第一个整数数组的值设为1到6,下一个数组的元素值设置为第一个数组元素的平方,第三个数组的元素值设为第一个整数数组的三次方,输出3个数组的内容,再释放已分配的内存.#include<iostream>using namespace std;const int row = 3;const int col = 6;i
原创
发布博客 2015.09.08 ·
479 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

顺序栈(10进制转化成8进制数)

算法:1.利用辗转相除法求得每次的余数为8进制数;2.所产生的8进制数是按从低位到高位的顺序产生的,利用栈的来处理很适合,不用在设计其他的算法颠倒输出了!3.采用顺序栈简单灵活!4.代码没有设计一个类的方法,(有点麻烦)但是思想还是c++根据行为,执行操作#include<iostream>using namespace std;#define NULL 0const int MA
原创
发布博客 2015.09.08 ·
2113 阅读 ·
4 点赞 ·
0 评论 ·
12 收藏
加载更多