- 博客(10)
- 收藏
- 关注
原创 面向对象
一、封装、抽象、多态、继承封装又叫信息隐藏,通过访问权限控制实现(public、private)。意义:保护数据不被随意修改,提高代码的可维护性;暴露有限的必要接口,提高类的易用性。抽象隐藏实现细节,使用者只需要关心提供的功能。意义:提高可扩展性、维护性(修改实现无需改变定义);过滤不必要关注的信息,用于复杂系统。继承表示类之间的is-a关系。意义:解决代码复用问题。注意:多继...
2020-03-05 13:19:27 141
原创 最好理解的二叉树前中后序遍历
面试被问二叉树后序遍历,用循环实现,没有写出来,在leetcode有很多很好的实现,但是不太好理解,以下这种思路是最好理解的一种了public class OrderTraversal { /** * 前序遍历: * 实现思想: * 1. 获取到每个节点添加到结果列表并保存到栈中 * 2. 继续对这个节点对左子节点重复过程1,直到左子节点为空 ...
2019-09-05 16:32:48 290
原创 数据开发技能树
由于最近想换工作,根据数据研发的招聘和自己的经验,总结了数据开发工程师的技能树,我把这些要求分成了3类,第一个是掌握的工具,第二是业务用到的相关思想、知识,第三是加分项,一些数据挖掘的算法和工具。...
2019-06-27 12:58:23 192
原创 Hadoop技术总概
Hadoop1HDFS解决海量数据的存储 一个主节点namenode,多个从节点datanode namenode:存储元数据,响应用户的操作请求。 datanode:存储数据,block64M,有三个副本。secondarynamenode作用:进行元数据的合并,备份元数据。 hdfs格式化以后会生成一个FSimage的镜像文件,用于保存元数据。 fsimage...
2018-04-15 12:07:41 725
原创 利用hive对微博数据统计分析案例
数据样例:[{“beCommentWeiboId”:”“,”beForwardWeiboId”:”“,”catchTime”:”1387157643”,”commentCount”:”682”,”content”:”喂!2014。。。2014!喂。。。”,”createTime”:”1387086483”,”info1”:”“,”info2”:”“,”info3”:”“,”mlevel”:”“...
2018-04-10 22:10:40 4477 2
原创 统计用户在同一地点停留时长
描述:对同一个用户,在同一个位置,连续的多条记录进行合并合并原则:开始时间取最早的,停留时长加和字段:userID, locationID, time, duration数据样例:user_a location_a 2018-01-01 08:00:00 60user_a location_a 2018-01-01 09:00:00 60user_a locatio...
2018-03-25 18:49:21 1941 3
原创 求倒排索引2
输入数据格式:有两个文件data1.txt和data2.txt,文件中的内容就是普通的文本。每个单词就是一个关键词。data1.txt的内容:zhangsan love zhoubalisi love zhengshi lisi love wujiuwangwu love zhaoliulisi zhouba zhangsan sunqidata2.txt的内容:hel...
2018-03-25 18:47:57 204
原创 求倒排索引1(修改默认输入组件以记录行号)
概念: 倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法, 被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。 它是文档检索系统中最常用的数据结构求出每个关键词在哪个文档中的第几行出现了几次 输入数据格式:有两个文件data1.txt和data2.txt,文件中的内容就是普通的文本。每...
2018-03-25 18:45:12 305
原创 MapReduce自定义输入输出组件
多个小文件合并,一个key-value,value是小文件的所有内容。套路:模仿org.apache.hadoop.mapreduce.lib.input.LineRecordReader 和org.apache.hadoop.mapreduce.lib.input.TextInputFormat把输入控件设置成自定义的控件类job.setInputFormatClass...
2018-03-20 08:46:47 712
原创 二次排序算法(可求不同类别下的Top N)
先给一条测试数据:math,xuzheng,54,52,86,91,42,85,75课程名,学生姓名,分数(完整的数据放在文末)需求:求出每门课程参考学生平均成绩最高的学生的信息:课程,姓名和平均分。思路:创建课程pojo类,实现WritableComparable接口,实现compareTo方法,先对课程名进行比较,相同再对分数进行比较。创建分组类继承WritableC...
2018-03-19 09:08:12 327
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人