自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小赫本本本

大数据学习心得

  • 博客(22)
  • 收藏
  • 关注

原创 `lxq-2020-12-8编写的小游戏`

lxq-2020-12-8编写的小游戏import randomrang1 = int (input("请设置本局游戏的最小值"))rang2 = int (input("请设置本局游戏的最大值"))num = random.randint(rang1,rang2)guess = "guess"print("数字猜谜游戏!")i=0while guess != num: i +=1 guess = int(input("请输入你猜的数字")) if guess ==

2020-12-08 16:22:24 113

原创 這里有你想要的关于PYTHON

关于python2019/8/22关于PYTHON的学习路线图,愿你我早日转到喜欢的方向工作,因为热爱可抵岁月漫长by 小赫本本本

2019-08-22 18:57:44 108

原创 SQL基本操作命令【帮你整理好啦】快快记牢吧

SQL基本操作命令【帮你整理好啦】快快记牢吧SQL的问题就是四大类:增、删、改、查。要使用到的命令通常有:SELECT、UPDATE、DELETE、INSERT INTO、ALTER、DROP、IN、BETWEEN、DISTINCT、UNION、HAVING、WHERE、ON、EXISTS等等。下面主要按照上面说的从建立表开始、到四大类、以及常用的结构和命令解释几个部分。这里语句都是基于SQL...

2019-05-09 11:07:17 471

原创 7.1.4Flume拦截器(Interceptor)

数据采集的理想做法是:由数据的生产者再把数据发送到平台之前对数据进行清理,这应当由产生数据的团队来处理,因为他们最了解他们自己的数据。拦截器是数据流中的一个处理点,他可以在源和通道之间插入一个或多个拦截器,来动态检查和修改Flume事件,有点类似Servlet的ServletFilter 数据—–》源——-》事件——》拦截器1———–》拦截器2——–》通道(Flume代理) 下面这个例子添加了...

2018-03-26 00:59:43 294

原创 Flume事件

Flume事件由0个或多个头与体组成,也就是说,它包含了采集的数据(“体”)和一些额外信息(“头”)的一个数据单元。Flume事件是Flume传输的基本单元。头是一些键值对(Map...

2018-03-25 22:27:08 403

原创 大数据的采集和导入

的大数据平台,一般包括以下几个过程,数据采集,数据存储,数据管理,数据处理,数据展现(可视化,报表和监控)数据是分散在不同的系统中的,在让数据产生价值之前,必须对数据进行采集,清洗,处理,大数据的数量和维度越来越多,我们必须采用大数据技术获得所需信息,计算机网络和信息设备的快速发展,产生的海量数据存在于各类服务器,媒介,机构,需要采取不同办法去寻找,加工数据才可以获得不同的办法去寻找,技工数据才可...

2018-03-20 22:06:52 11246

原创 大数据Hadoop分布式集群环境搭建

Zookeeper简介 Zookeeper集群搭建 Zookeeper基本操作 Hadoop HA集群环境搭建 Zoopeeper简介 zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。他是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护,域名服务,分布式同步,组服务等...

2018-02-23 21:55:52 276

原创 6.maven生命周期

1)clean 2)default(自动化构建) 3)site(生成站点文档) 一个周期分为各个phase(阶段)default:compile->test->package->install->deplay 三个生命周期一起使用 mvn clean install site 7.pom.xml配置 8.插件管理 phase与plugin中的goal进行邦定 mvn : mvn

2018-02-02 11:36:47 185

原创 大数据常见命令

1).mvn clean :清理项目 2)mvn comple:编译 3)mvn test:测试 4) mvn package:打包(war/jar) 5) mvn install:发布到本地仓库(安装) 6)mvn deploy:发布到远程仓库(发布) 一,target目录中各个子目录作用 a.classes:编译成的class文件 b.maven-archiver:项目编译时需

2018-01-30 14:06:00 851

原创 maven创建工程

1.mvn archetype=generate` - DgroupId=com.uplooking.maven 把项目发布到本地仓库或远程仓库。 2.Dartifactid=demo - DarchetypeArtifactId(使用的骨架)=maven-archetype-quickstart-DinteractiveMode(交互式模式)=false(生成一个java的应用项目,一般

2018-01-30 13:54:17 159

原创 如何用一个数组实现三个栈

最后,让我们把抠门进行到底,相信看到本文,你已经从物质和精神上都升级了一个抠门而主义者。 如果还使用交叉索引的方法,每个栈都只有N/3个空间 让我们只好使用上个题目的第二个方法,不过这只能容纳2个栈,我们还需要一个位置存放第三个栈,不如考虑数组中间的位置———第三个栈的增长规律可以如下: 第一个入栈C的元素进mid处 第2个入栈C的元素进mid+1处 第3个入栈C的元素进mid+1处

2018-01-15 22:25:55 795

原创 如何用一个数组实现两个栈

继续我提倡的抠门思想,也不枉我和青菜相交一场。 网上流传着两种方法; 方法1 采用交叉索引的方法 一号栈所占数组索引为0,2,4,6,8…(K*2) 二号栈所占数组索引为1,3,5,7,9,,,(K*2+1) 算法实现如下: public class NewStack { object []arr; int top1; int top2; public NewStack

2018-01-15 21:42:38 278

原创 两个不交叉的有序链表的合并

有两个有序链表,各自内部是有序的,但是两个链表之间是无序的。 算法思路:当然是循环逐项比较两个链表了,如果一个到了头,就不比较了,直接加上去。 注意.对于2个元素的Data相等(仅仅是Data相等哦,而不是相同的引用),我们可以把它视作前面的Data大于后面的Data,从而节省了算法逻辑。 static Link MergeTwoLink(Link head1,Link head2) {

2018-01-15 16:29:23 223

原创 找出单链表的倒数第四个元素大数据面试题2018.01.09

2.找出单链表的倒数第4个元素 这道题目有两种算法,但无论哪种算法,都要考虑单链表少于4个元素的情况:第一种情况,建立两个指针,第一个先走4步,然后第2个指针也开始走,两个指针步伐【前进速度】一致。 static Link GetLast4thOne(Link head) { Link first = head; Link second = head; for(

2018-01-09 18:19:11 239

原创 2018.01.08大数据面试题-算法大全-数据结构-算法1-单链表反转

一.单链表 目录 1.单链表 2.找出单链表的倒数第四个元素 3.找出单链表的中间元素 4.删除无头单链表的一个节点 5.两个不交叉的有序链表的合并 6.有个二级单链表,其中每个元素都含有一个指向一个单链表的指针,写程序把这个二级链表称为一级单链表 7.单链表交换任意两个元素(不包括表头) 8.判断单链表是否有环?如何找到环的“起始”点?如何知道环的长度? 9.判断两个单链表相

2018-01-08 23:08:58 219

原创 大数据面试问题2018.01.08常见问题

1.请你自我介绍一下 回答提示:一般人回答这个问题过于平常,只说姓名,年龄,爱好,工作经验,这些在简历上都有,其实,企业最希望知道的是求职者能否胜任工作,包括:最强的技能,最深入研究的知识领域,个性中最积极的部分,做过的最成功的事,主要的成就等,这些都可以和学习无关,也可以和学习有关,但要突出积极的个性和做事的能力,说的合情合理企业才会相信,企业很重视一个人的礼貌,求职者要尊重考官,在回答每个问

2018-01-08 20:25:46 8710 1

原创 大数据面试题必会2018.01.07

数据分析师常见的10道面试题解答 1.海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中,注意到IP是32位的,最多有个2*32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文件中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的

2018-01-07 23:31:35 1747

原创 大数据面试题之2018.01.05

5.简述Hadoop1和Hadoop2架构异同 Hadoop2相比较于Hadoop1来说,HDFS的架构与Mapreduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更。 1 Hdfs的NameNodes可以以集群方式部署,增强了Namenodes的水平扩展能力和可用性。 1 Mapreduce将JobTracker中的资源管理及任务生命周期管理(包

2018-01-05 18:20:06 412

原创 大数据面试题总结

1.HashTable,HashMap,CurrentHashMap HashTable:哈希表,该哈希表将键映射到相应的值。任何非null对象都可以用作键或值。 HashMap:基于哈希表的Map接口实现。此实现提供所有可选的映射操作,并允许使用null值和null键。 (除了非同步和允许使用null之外,HashMap类与Hashtable大致相同。)此类不保证映射的顺序。 特别是它不

2018-01-05 16:44:34 538

原创 大数据面试题总结

1.HashTable,HashMap,CurrentHashMap HashTable:哈希表,该哈希表将键映射到相应的值。任何非null对象都可以用作键或值。 HashMap:基于哈希表的Map接口实现。此实现提供所有可选的映射操作,并允许使用null值和null键。 (除了非同步和允许使用null之外,HashMap类与Hashtable大致相同。)此类不保证映射的顺序。 特别是它不

2018-01-04 22:34:57 389

原创 大数据入门第二天语录2018.01.04

Velocity是指大数据往往以数据流的形式动态,快速的产生,具有很强的时效性。数据自身的状态与价值也往往随时空变化而发生演变(这些数据往往包括了空间维,时间维等多种数据)比n如,环境监测中的水质和空气质量数据,高速路卡口的四品监测数据等。 value是指数据已经成为一类新型资产,隐藏着大价值。大数据的价值密度低,需要通过专业的技术手段进行挖掘。只有对其进行正确,准确地分析,才会带来很高的价值回

2018-01-04 18:14:17 486

原创 大数据入门第一天2018,01,02

大数据技术入门:hadoop,Spark两大框架,大数据技术大串讲 适用于技术干部 ,cio ,cto,it经理,初学者,大数据入门 内容简介:从2015年开始,国内大数据市场继续保持高速的发展态势,作者在与地方政府,证卷金融公司的项目中发现,他们对大数据技术很感兴趣,并希望从大数据技术等方面得到指导和应用帮助,本书共12章,以hadoop和Spark框架为线索,比较全面地介绍了hadoop技术

2018-01-02 23:55:22 428

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除