大数据
文章平均质量分 86
Java架构师联盟
这个作者很懒,什么都没留下…
展开
-
Python欢喜冤家:爬虫与反爬虫带着处理方案来给大家拜年了
在了解什么是反爬虫手段之前,我们首先来看一看爬虫到底是什么?什么是爬虫在当今社会,网络上充斥着大量有用的数据,我们只需要耐心地观察,再加上一些技术手段,就可以获取到大量的有价值数据。这里的"技术手段"就是指网络爬虫。爬虫就是自动获取网页内容的程序,例如搜索引擎,Google,Baidu等,每天都运行着庞大的爬虫系统,从全世界的网站中爬取数据,供用户检索时使用。恶意的爬虫不仅会占用大量的网站流量,造成有真正需求的用户无法进入网站,同时也可能会造成网站关键信息的泄漏,影响网站或app的正常运行。因此对原创 2021-02-22 16:42:16 · 170 阅读 · 0 评论 -
写给身边的程序员朋友的一封信:火箭和螺丝从来是相互依存的
之前一段时间断更了一段时间,是因为在之前的一个深夜,我被一个电话吵醒,来电的是一个快三十岁的程序员,也是我很好的朋友,电话那头传来的是哭泣声,我没有开口,接通电话之后,我就坐在床上,听他哭,等他开口,女朋友在旁边说:大晚上的,干啥呢?梦游啊,哄睡女朋友后,我就在客厅和他聊天,第一次有那种场景,一个快三十的老爷们,蹲在自家黑漆漆的车库里抱头大哭是一种什么场景。他告诉我他被裁员了。因为疫情影响,公司不景气,几乎裁掉了一半人员。而他这位所谓的技术骨干,也在裁员名单的行列中。他说现在背着的200万的房贷,原创 2020-06-03 21:45:16 · 449 阅读 · 0 评论 -
美团|阿里等大厂专家一致同意:35岁从来不是程序员的终点!
引言古人云:“活到老,学到老。”互联网算是最辛苦的行业之一,“加班”对工程师来说已是“家常便饭”,同时互联网技术又日新月异,很多工程师都疲于应付,叫苦不堪。以至于长期以来流传一个很广的误解:35岁是程序员工作的终点。注:仅代表个人意见,有问题可以大家一起交流如何在繁忙的工作中做好技术积累,构建个人核心竞争力,相信是很多工程师同行都在思考的问题。本文是我自己的一些总结,试图从三个方面来解答: 第一部分阐述了一些学习的原则。任何时候,遵循一些经过检验的原则,都是影响效率的重要因素,正确的方法.原创 2020-06-01 21:56:28 · 337 阅读 · 0 评论 -
Java行业已经饱和了?胡扯,怎么可能,只是不需要这类型的程序员了
Java作为编程语言中的王者,已经火爆了数十年,唱衰者认为,随着Java开发从业人数的越来越多,Java行业在未来也会饱和,今日辉煌注定不再,真的会这样吗? 为什么Java火爆20余年,依旧占据编程语言第一之位? (一)Java—服务器端的王者 对于了解计算机编程的同学来说,Java语言并不陌生。她诞生于1995年,应互联网而生,在TIOBE世界语言编程排行榜上曾83次排名第一,其他语言诞生、消亡,唯有Java连续数年荣登第一宝座,是当之无愧的王者编程语言。 而对于编程零基础的同学来说,可原创 2020-05-25 22:48:50 · 863 阅读 · 0 评论 -
阿里大数据专家图解sparkRDD(附代码实操)
在开始学习Spark工作原理之前, 先来介绍一下Spark中两个最为重要的概念-- 弹性分布式数据集(Resilient Distributed Datasets, RDD) 和算子(Operation).RDD背景 Spark的核心是建立在RDD之上, 使Spark中的各个组件可以无缝进行集成, 从而在一个应用程序中完成大数据计算. 这也是为什么说在SparkCore中一切得计算都是基于RDD来完成的. RDD的设计理念源自AMP实验室发表的论文–Resilient Distributed.原创 2020-05-16 23:05:26 · 530 阅读 · 0 评论 -
大数据处理编程神器--Scala,确定不学习一下吗?
Scala字符串 Scala中字符串也是分为两种: 可变长度的StringBuilder和不可变长度的String, 其操作用法与Java几乎一致. 接下来, 通过代码来查看常用方法//定义字符串val str1 = "Hello Scala"var str2 = "Hello Scala"var str2_1 = "hello scala"//字符串比较println(str1 == str2)println(str1.equals(str2))println(str1.equ原创 2020-05-14 22:38:52 · 261 阅读 · 0 评论 -
亲身经历,告诉你一张知识图谱有多重要!!
最近老有读者跟我商量说,看了你那么多的体系架构图,能不能给我xmind格式的架构图啊,而我的回应一般是不给,所以当有一个读者跟我说不给算了这句话的时候,心里挺不舒服的首先,在这里跟大家说声抱歉,今天不讲知识点,就是单纯的说一下为什么想让大家去做这样一份架构图,也和大家解释一下,我为什么不给大家xmind文件先给大家看一张我之前发过的文章中的图谱不知道大家在看到我上面的那张图之后,或者说看过我这篇文章的:学会这张Linux脑图,可你帮你解决90%的问题,加薪都是小事有什么感觉,有没有很lo原创 2020-05-13 22:27:57 · 536 阅读 · 0 评论 -
面试者福音,熬夜小能手,历时24小时,整理一二线城市知名互联网企业名单以及学习路线
不知道大家有没有这样的一个错觉,那就是当要重新换工作的时候,有了职位没有地点,有了地点不hi到那个公司好的,最后要么靠内推,要么就海投,然后一个个选择,有可能会错过一些比较好的公司,那这种情况真的就没有办法解决了吗?那怎么可能,往下看五一期间,有读者联系我说最近想要离职回老家附近的城市发展,但是不知道有什么好公司,问我有没有什么推荐,突然想起来,之前有一些读者甚至是刚毕业找工作的读者也来问过我...原创 2020-05-07 19:00:31 · 301 阅读 · 0 评论 -
大数据集群管家--MapReduce运行架构, Yarn资源调度流程
前言 某天, 某研究机构设计了一款私人飞机图纸, 之后某公司根据该图纸制作出一架私人飞机. 然后某位有钱人士觉得这架飞机非常好, 就花高价钱买下这架飞机. 飞机要想起飞, 需要向空管局申请航线, 申请成功后, 这位富人又雇佣了一位飞行员. 最后飞行员开启飞机, 这位富人如愿坐上心仪的飞机并翱翔天际. 上述流程可以概括为:设计图纸 --> 私人飞机 --> 空管局(申请航...原创 2020-05-06 21:02:24 · 249 阅读 · 0 评论 -
透过生活看实质,源码解析分布式计算框架MapReduce(附源码)
目录思想引入MapReduce处理流程MapReduce 具体分为四步:MapReduce中的几个名词:MapReduce执行流程:map task 线程1.1 map阶段1.2 shuffle write阶段reduce task 线程2.1 shuffle read阶段2.2 reduce阶段MapReduce概述MapReduce的定义...原创 2020-05-06 20:55:58 · 712 阅读 · 0 评论 -
手把手带你玩转大数据系列--zookeeper原理+搭建步骤
Zookeeper不知道大家这个假期过的怎么样,反正小编这个假期真的是过的水深火热的,中间也断更了好几天,在这里和大家说一声抱歉,而且因为小编自己的原因,手把手带你玩转大数据系列在中间也有一个间断,添加了一个flink的资源任务调度流程的讲解,今天回归正题,在之前的时候和你们说的zookeeper的相关问题。在这里,小编想和大家说一句自己对于大数据的见解,其实大数据说白了就是对于数据的一个...原创 2020-05-06 00:14:32 · 368 阅读 · 0 评论 -
代码示例讲解Hive分区分桶以及自定义函数
导入数据:1、load data local inpath '/root/tes.txt' into table test.usr; 将本地的数据导入到hive中2、从hdfs集群导入数据load data inpath 'hdfs://node01:9000/user/tes.txt' into table test.te; LOAD DATA命令,可分为LOAD DA...原创 2020-04-13 21:23:15 · 469 阅读 · 0 评论 -
python的竞争者scala,谁更适合大数据
在浏览spark的官网时,机缘巧合的我看到这这样一张图这其中出现了三个熟悉的身影,Java、Scala、python,作为最近热门讨论的语言,那python和scala在大数据的竞争中到底谁更胜一筹呢?虽然python因为其“胶水”特性,被更多的使用和讨论,但是scala也真的不要小瞧他,他在spark的支撑下,真的也是一门强大的语言,来看一下scala的神秘色彩吧Scal...原创 2020-03-24 16:21:45 · 664 阅读 · 0 评论 -
整理常用Scala函数代码供大家参考(附wordcount源码)
随着大数据的发展,spark逐渐成为主流技术之一,而且支撑的scala语言也成为做大数据热门的编程语言之一,在家无聊,就将scala中一些常用的的scala的高端函数以及set、map等代码进行整理,在最后有一个完整的wordcount大数据入门源码偏应用函数偏应用函数是一种表达式,不需要提供函数需要的所有参数,只需要提供部分,或不提供所需参数。/*** 偏应用...原创 2020-03-24 16:01:18 · 438 阅读 · 0 评论 -
任务调度,你懂吗?来听阿里大老一张图解释spark任务调度
关于任务调度,主要通过上面的这张图进行一个相应的讲解,在这张图里面主要分为两个部分,一是关于任务调度的流程,二是关于任务调度的重试机制,这也是我们spark优化的其中一个方面首先是RDD Object,这也就相当于我们的应用程序,当我们在开发一个application的时候我们会将一个个的RDD之间有了一个依赖关系,形成一个有向无环图,然后我们将这个有向无环图提交给DAGS...原创 2020-03-23 21:05:57 · 411 阅读 · 0 评论 -
阿里大数据专家带你玩转CDH,手把手带你部署数据可视化平台
目录一、说明 2二、系统环境搭建 31、网络配置(所有节点) 32、SSH免密码登录 33、关闭防火墙 34、关闭SELINUX 45、安装JDK 46、设置NTP 57、安装配置MySql 58、下载依赖包 7三、Cloudera Manager Server&Agent安装 81、安装Cloudera Manager Server&...原创 2020-03-23 19:08:50 · 697 阅读 · 0 评论 -
百万年薪架构师图解HBase深层次的秘密
目录HBase架构组成1.1 region server1.2 HBase HMaster1.3 Zookeeper1.4 这些组件如何一起协调工作1.5 第一次访问HBase深入region server2.1 HBase写数据与region server的交互1)写WAL2)写缓存2.2 HBase MemStroe2.3 HBase regio...原创 2020-03-17 00:41:15 · 156 阅读 · 0 评论 -
分布式领导者曰:HA由我操控
文章目录ZookeeperZookeeper的构成Zookeeper 的特性:Zookeeper的基本运行流程:Zab协议包括Zookeeper内部选举算法:具体的投票执行流程Zookeeper每一个专业的技术总可以在生活中找到相应的实例,就比如说zookeeper,攘其外必先安其内就很好的解释了zookeeper,Hadoop集群的组件中的很多在学习的时候都会觉得每一个都不稳定,都会出现这样...原创 2020-03-17 00:13:46 · 187 阅读 · 0 评论 -
分布式弹性数据集助力spark,提升运行效率
在spark的简介中我们已经说过了,为了让spark的处理速度加快,其中有一个解决办法就是引入了一个分布式的弹性数据集–RDD那什么是RDD:RDD(Resilient Distributed Dataset)弹性数据集,是spark中的最基本的数据抽象,虽然说RDD是一个数据集,但是,它不存储数据,他表示的是一个不可变的,可分区的元素并行计算的集合,允许用户在执行多个查询时将工作缓存到内存中,...原创 2020-03-16 21:52:42 · 171 阅读 · 0 评论 -
MR和HDFS的高端封装--Hive
在Hadoop的官方网站中说明了其拥有许多的组件,但是,最主要的组件就是HDFS、MapReduce,yarn以及相关的项目HBase,Hive,Zookeeper以及spark,在前面的几个博客里我们已经对于HDFS,MapReduce,yarn以及HBase进行了相应的讲解,今天,我们来交流一下有关于Hive的相关知识在Hadoop的存储处理方面提供了两种不同的机制,一种是之前介绍过的Hba...原创 2020-03-16 21:46:43 · 235 阅读 · 0 评论 -
nosql的代表,你了解hbase吗?
Hadoop 其它组成角色介绍–Hbase在apache的官方网站上,对于Hbase的定义是他是Hadoop的第一个分布式、可扩展的大数据存储的数据库,他的目标是将非常大的表托管到一个集群中进行相应的存储,区别于mysql等数据库,它是一个非关系型数据库,但是不支持sql语句的编写HBase的架构(RPC:一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议)客户端Cli...原创 2020-03-16 21:42:47 · 281 阅读 · 0 评论 -
前握Active后连Standby,图解zookeeper是如何完成强势切换
Zookeeper每一个专业的技术总可以在生活中找到相应的实例,就比如说zookeeper,攘其外必先安其内就很好的解释了zookeeper,Hadoop集群的组件中的很多在学习的时候都会觉得每一个都不稳定,都会出现这样那样的问题,会常常听到的一个词语就是高可用,在zookeeper的官方定义的时候在集群出现故障到解决故障正常执行的间隔时间小于200ms,在我们看来就是整个集群一直可用的错觉...原创 2020-03-11 15:15:33 · 315 阅读 · 0 评论 -
yarn集群搭建以及任务提交---官方文档的使用
关于集群的搭建,其实就是说明书的使用问题,会用说明书,很简单,不会用说明书,只能去参考别人的智慧,针对这个情况,对于yarn的搭建,我就把官方文档的相关文档拿出来进行搭建1、打开官方网址hadoop.apache.org2、选择属于自己的hadoop版本,能看懂的直接看英文,看不懂的也可以借助浏览器的翻译功能,就会有下面的这样一个页面根据官方文档,我们知道,hadoop的设置分为单节...原创 2020-03-02 19:31:52 · 441 阅读 · 0 评论 -
hadoop--“管家”yarn初步讲解2.x
在了解了hfds的底层执行之后,也知道它存在的一些问题,mapreduce下的资源管理1.x简单回顾一下第一单点故障,第二内存的硬件限制,最后就是mapreduce 的计算机制造成了资源的空闲浪费。,对于以上存在的问题,虽然mapreduce是一个很好的大数据处理的计算框架,但是,为了追求最好的运行效率,当遇到特别巨大的运算等特殊情况时所可以得到的最好的处理结果,Hadoop在MapRedu...原创 2020-02-25 23:48:35 · 184 阅读 · 0 评论 -
hdfs-mapreduce处理流程(二)
1、问题:在这张图中有几个工人,几个工厂工人: 4 --map处理程序厂: 3 --reduce相当于最后的工厂 组装2、map端进行了什么事:砍树这一步叫做split 过程砍树—把我们hdfs的文件进行切割(砍树) ----- 默认与block块的大小一致(128M) split=block=maptask2.1当然为了更好的处理,在计算资源充足的情况下,把split变大设置为25...原创 2020-02-25 22:37:07 · 392 阅读 · 0 评论 -
hadoop-MapReduce处理流程(一)生活实例对比
先来出道题引入一个重要的思想----分布式计算思想在上面的这个图中,主要是对一个1T的文件进行排序操作,是不是可以将这个大文件切割成一个个的小文件尽心处理,就可以解决啊,但是按照正常来说,一共需要三次io,读取文件进行切割一次,小文件内部排序一次,然后对小文件进行合并形成大文件一次,一共三次,并且大家是知道的,磁盘的io是非常慢的,所以,我能不能减少磁盘io的数量啊------这也就产生了第二...原创 2020-02-25 22:34:52 · 391 阅读 · 0 评论 -
远程搭建集群进行连接步骤
首先来个简单的引入,我在处理环境进行映射的时候发现我没有hosts,那这样的话该怎么办呢?去网上搜了很多,在这里我进行简单的记录和整理1、第一种方法,直接创建hosts文件2、代码生成我们按下WIN+R呼出运行菜单,然后在运行菜单中输入:attrib %SystemRoot%\system32\drivers\etc\hosts -h -r -s然后我们继续在运行菜单中输入:notepa...原创 2020-02-22 20:51:11 · 822 阅读 · 0 评论 -
Linux虚拟机安装流程以及jdk安装
Linux安装1.Linux安装完成后 第一个问题就是网络不通的问题 ,问题图片如下:解决办法:三种网络模式:桥接模式:虚拟机和宿主机是兄弟关系,统一由宿主机连接的路由器分发ipNAT模式:虚拟机和宿主机是父子关系,宿主机的vmnet8虚拟网卡充当路由器分发ip由于虚拟网卡也要占用一个ip所以虚拟网关是从2开始的仅主机模式:虚拟机和宿主机是共生关系,很少用到1.1 修改主机名以...原创 2020-02-20 00:17:22 · 215 阅读 · 0 评论 -
hadoop-hdfs的API开发
在前一博客中我们搭建了hdfs的开发环境,接下来我们要在idea中进行相应的代码开发1、引入依赖包<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version&...原创 2020-02-19 23:24:46 · 391 阅读 · 0 评论 -
Hadoop +API之idea+maven搭建HDFS开发环境
1、首先你要有一个开发环境idea2、你要有一个集群–hadoop集群,集群都没有你要使用什么来进行开发呢?或者说你要开发了哪里去呢?对吧环境搭建原创 2020-02-19 16:36:31 · 1157 阅读 · 0 评论 -
Hadoop之为了开发测试进行分布式集群搭建
在尽心到api的开发的时候涉及到开发环境的搭建,我发现,除了需要进行windows本地环境搭建意外,还需要进行集群环境搭建,但是可能有很多新手呢,不知道如何搭建,所以,我在这里呢,将环境搭建的简单小集群进行贡献,让大家可以进行简单的测试1、准备一台虚拟机,内存2G足以使用,网络、jdk均需要配置完成2、上传hadoop安装包并解压3、配置hadoop相应的设置4、格式化集群并启动简单吧,...原创 2020-02-19 16:35:24 · 230 阅读 · 0 评论 -
大数据之Hadoop下hdfs本地配置
在之前的博客进行的过程中,发现很多朋友呢在执行本地测试的时候出现问题,百思不得其解,最终发现答案,想在本地进行测试但是还没有设置本地的运行环境,没有厨房还想做饭,这玩意挺为难人啊,所以呢,现在我们就开始进行hadoop环境的本地搭建1、准备hadoop包:正常下载之后解压到一个任意位置,看你个人开心2、环境变量配置配置环境变量包括HADOOP_HOME(HADOOP解压路径)保证hado...原创 2020-02-18 23:56:23 · 209 阅读 · 0 评论 -
大数据入门--简单wordcount源码分析
java入门hello world大数据入门–wordcount因为工作的关系,频繁的重复被wordcount配置的恐惧,尤其是在scala横飞的今天,长久的不再使用有的时候真的记不住啊,从网上找各种相应的代码,五味杂陈,所以在这里将简单的wordcount的代码整理出来供大家使用,也供自己参考首先就是我们的Mapper层...原创 2020-02-18 23:34:09 · 313 阅读 · 0 评论 -
MapReduce处理流程
在了解了Hadoop的组建以及底层框架之后我们知道,Hadoop的底层是通过HDFS进行数据的存储,将数据存储到集群中然后调用其中的数据进行相应的计算,那么问题来了,谁来进行计算的操作呢?这个就是Hadoop的另外一个底层框架,也就是MapReduce,他在集群的作用就是负责进行数据的处理过程为什么要使用mapreduce呢?因为mapreduce的核心是将用户编写的业务逻辑代码和自带的默认组件...原创 2020-02-18 21:29:47 · 321 阅读 · 0 评论 -
初始hadoop之hadoop读写备份以及持久化
初识大数据:在计算机刚刚出世的时候,其目的帮助人们解决大型数据的计算量的问题,计算机将大型数据的计算能力提高了很多倍,解决了人们对于数据的处理能力的瓶颈,可是,随着社会信息化的发展,网络将人们的生活提升到一个更加快速的级别,尤其产生的问题就是人们在日常生活中产生的信息数据越来越多,现有计算机设备的能力很难处理这些数据,或者能处理但是需要非常长的处理时间,而在这个信息化社会,时间就是金钱,过长的处...原创 2018-10-09 10:41:35 · 390 阅读 · 1 评论