![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 90
Braylon1002
这个作者很懒,什么都没留下…
展开
-
牛客网sql练习题解(52-61)
文章目录简介NO.52NO.53NO.54NO.55NO.56NO.57NO.58NO.59NO.60NO.61简介往期文章:牛客网sql练习题解 (1-11)牛客网sql练习题解(12-21)牛客网sql练习题解(22-32)牛客网sql练习题解(34-42)牛客网sql练习题解(43-51)这是最后一部分了,然后整个牛客网sql61道题就解决了。整体感觉偏基础,虽然有一些题莫名其妙,但是足以对一些知识点进行巩固了。不过没有MySQL的环境一直是我认为不太友好的地方,希望能尽快改善。本原创 2020-07-09 11:05:18 · 432 阅读 · 0 评论 -
牛客网sql练习题解(43-51)
文章目录简介NO.43NO.44NO.45NO.46NO.47NO.48NO.49NO.50NO.51简介往期文章:牛客网sql练习题解 (1-11)牛客网sql练习题解(12-21)牛客网sql练习题解(22-32)牛客网sql练习题解(34-42)他来了他来了,他带着sql走来了。这次的知识点涵盖update用法replace函数replace into修改表名外键intersect用法下面我们直接上题目。NO.43update titles_test set t原创 2020-07-05 10:24:15 · 1721 阅读 · 0 评论 -
牛客网sql练习题解(34-42)
文章目录简介NO.34NO.35NO.36NO.37NO.38NO.39NO.40NO.41NO.42简介往期文章:牛客网sql练习题解 (1-11)牛客网sql练习题解(12-21)牛客网sql练习题解(22-32)他来了他来了,他带着sql走来了。这次的知识点涵盖insert批量插入索引触发器视图alter关键字删除下面我们直接上题目。NO.34考察insert的批量插入,有两种方法,第一种(简单粗暴)insert into actor(actor_id, fi原创 2020-06-25 11:53:39 · 1823 阅读 · 0 评论 -
牛客网sql练习题解(22-32)
文章目录简介NO.22NO.23NO.24NO.25NO.26NO.27NO.28NO.29NO.30NO.31NO.32简介往期博客:牛客网sql练习题解 (1-11)牛客网sql练习题解(12-21)NO.22这里面有一个小技巧即使怎么获得当前salary的排名,也就是子查询中的写法,这是一个比较常用的方法。值得记住。select s.emp_no, s.salary, tmp.rank as rankfrom salaries s inner join ( select di原创 2020-06-20 17:50:00 · 1221 阅读 · 0 评论 -
牛客网sql练习题解(12-21)
文章目录简介NO.12NO.13NO.14NO.15NO.16NO.17NO.18NO.19NO.20NO.21简介按时来更,感觉题目不是很难,不过我有一个感觉就是虽然题目简单不过如果你只是靠上课知道的那些东西而不亲自动手的话会出现眼高手低的问题。总之,如果大家有兴趣不妨看看,haha。下面的目录是对应的题号NO.12select de.dept_no, de.emp_no, max(s.salary) as salaryfrom dept_emp de left join salaries原创 2020-06-04 15:50:46 · 358 阅读 · 0 评论 -
牛客网sql练习题解 (1-11)
文章目录简介题解1234 + 567891011简介我将分批总结牛客网sql题解,当然leecode也是我比较推荐的sql在线OJ,至于为什么我不写leecode,是因为我不是会员,hahah~题解1其实是一个topN问题select * from employeesorder by hire_date desc limit 1;或者是:select * from employeesorder by hire_date desclimit 1 offset 0;或者是:原创 2020-06-01 11:00:12 · 831 阅读 · 2 评论 -
sql排序输出第n个字段 方法汇总
标题方法一:limit A offset Bselect distinct Salary as SecondHighestSalaryfrom Employee order by Salary Desclimit 1 offset 1;由于没有考虑如果没有第二个字段怎么办。改进:select (select distinct Salary as SecondHighestS...原创 2020-04-10 20:15:57 · 469 阅读 · 1 评论 -
Beautifulsoup学习笔记+实战项目(绝对详细)
文章目录安装demoBeautifulsoup操作基本元素遍历实战爬取爬取百度热门人物排行大学排名爬取安装pip install beautifulsoup4卸载:pip uninstall beautifulsoup4## importimport requestsimport osfrom bs4 import BeautifulSoupimport bs4impor...原创 2020-03-12 21:56:31 · 1861 阅读 · 1 评论 -
大数据学习(算法) Top N问题
文章目录简介那么这种题目或者这种问题到底解决的难点和关键点是什么?相关解法:真正的最优解。scala版本简介什么是TopN问题?举个例子:怎么在几十亿的数字中找到前50个数字(升序或者降序)。诸如此类问题都被成为topN问题。那么这种题目或者这种问题到底解决的难点和关键点是什么?我们来分析,这种题目绝对不能把它当作简单的排序来做,题眼在于超大的数量级,这就是告诉你在内存中不能完...原创 2020-03-02 11:11:30 · 1486 阅读 · 0 评论 -
大数据学习(二十二) DataFrame
文章目录简介DataFrame和RDD区别Datasets : DF之上的更高级抽象DataFramesSparkSessionDataFrame中使用SQL语句视图简介spark SQL部分,DF是很重要的一个操作单位。DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建:结构化数据文件hive中...原创 2020-02-21 09:04:22 · 461 阅读 · 0 评论 -
布隆过滤器+CBF scala实现+代码详解
文章目录简介BloomFilterBloomFilter的简单优化改进BloomFilterspark 的布隆过滤器scala实现BF、CBF简介布隆过滤器可以说是在大数据的处理算法方面经常使用的基础算法。在这方面我看了很多的博客,确实看到了很多很详细的解释和总结,但是都是零散的,没有很全面的在原理和实现,以及实现代码的解析等方面做的很全面的。所以我将我自己整理的东西很完整的和大家分享。其...原创 2020-02-19 15:10:45 · 941 阅读 · 0 评论 -
大数据学习(二十一)spark高级算子
简介这次主要分享一下spark RDD的常用的算子。然后利用这些算子进行一些实战的操作。高级算子mapPartitionsWithIndex源码:def mapPartitionsWithIndex[U: ClassTag]( f:(Int, Iterator[T]) => Iterator[U],第一个参数:分区号第二个参数:分区中的元素demo1:val RD...原创 2020-02-17 20:26:19 · 288 阅读 · 0 评论 -
大数据学习(二十)spark任务提交流程+RDD
简介前面我分享了一个spark的wordcount,那么这篇blog我就简单的介绍一下spark提交任务的流程。也就是当我们提交一个jar包到集群的时候,是如何进行调度和计算的。然后就是分享一下有关RDD 的东西。RDD是spark框架中的组成单位,也是spark分布式计算的核心,在我看来,spark分布式计算完全是由RDD来实现的,所以RDD对于学习spark来说是非常关键的。目录简介提...原创 2020-02-11 11:04:52 · 347 阅读 · 0 评论 -
大数据学习(十九)spark wordCount (java + scala)
简介看过我前面分享的博客的小伙伴已经知道了基于MR分布式计算架构的wordcount,现在来进入spark的世界了。这次我将分享一下基于spark架构的分布式计算框架,分别实现基于java和scala语言的两种不同的脚本。spark-shell初体验首先你的虚拟机或者服务器需要先部署spark的伪分布或者是全分布模式,这个可以看我以前的blog,然后这次我使用的是伪分布模式。安装好之后我...原创 2020-02-09 12:34:56 · 1312 阅读 · 0 评论 -
大数据学习(十八)spark部署
前期准备终于到了spark了,前面我说过了hadoop中的Mapreduce计算框架有比较明显的短板。接下来我将用一些blog分享spark方面的一些我觉得重要的东西。这次我们要安装spark所以你的服务器上后者虚拟机上需要有以下环境JDK配置SSH免密当然为了能更方便还是建议大家在host文件中配置一下主机名和Ip的映射。伪分布模式部署首先我们下载spark的tar包,大家...原创 2020-02-08 20:55:42 · 144 阅读 · 0 评论 -
大数据学习(十七)scala实现actor模型管理系统
简介解决高并发的问题,其实主要有两种解决思路,其中一个就是使用锁的概念,这是非常普遍的,但是当面对的业务量不断增多,各种锁就会非常多。导致很难维护,同时最重要的,使用锁其实是一个降低了系统效率的方法,也就是由于上下文切换等等带来的浪费。而另一种方法就是使用ACTOR模型,那么什么是ACTOR模型呢,请在另一篇blog中查看当然其中不论是使用锁、CAS,还是使用actor模型,都是各有利弊...原创 2020-02-08 15:31:05 · 402 阅读 · 0 评论 -
Actor模型学习
最近看到了一篇写的贼好的blog,讲的完全详细,看得出来笔者的功力,所以赶紧转载过来,最下面有原文的地址。大家一起共勉!传统的游戏服务器要么是单线程要么是多线程,过去几十年里CPU一直遵循摩尔定律发展,带来的结果是单核频率越来越高。而近几年摩尔定义在CPU上已然失效,为什么呢?大于在2003年左右,计算机的核心特性经历了一个重要的变化,处理器的速度达到了一个顶点。在接下来近15年里,时钟...转载 2020-02-08 14:52:16 · 405 阅读 · 0 评论 -
大数据学习(十六)idea配置Scala
简介接下来的一部分章节我们要学习scala,了解的朋友应该知道,现在只要是使用大数据的架构就一定会碰spark,那么操作spark应该主流的还是scala编程。所以后面的一部分章节我来分享一下scala编程方面的一些点。我也是在学习的过程中,欢迎指正,大家共勉。另外,scala语法的东西或者一些基础性的大家就去看看菜鸟教程或者w3school什么的。安装scala需要java环境,安装...原创 2020-02-03 21:43:20 · 366 阅读 · 0 评论 -
大数据学习(十五)zookeeperAPI操作 zookeeper分布式锁
zookeeperAPIpackage zkApI;import org.apache.zookeeper.*;import org.apache.zookeeper.data.Stat;import org.junit.Before;import org.junit.Test;import java.io.IOException;import java.util.List;...原创 2020-01-30 12:21:49 · 116 阅读 · 0 评论 -
大数据学习(十四)zookeeper简介 安装 节点类型
zookeeperZookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。有哪些应用分布式锁统一命名服务配置管理集群生命周期管理负载均衡下载官网下载https://zookeeper.apache.org/我也...原创 2020-01-30 12:10:06 · 237 阅读 · 0 评论 -
大数据学习(十三)mapreduce自定义输出 outputformat
简介上一篇我分享了关于自定义输入的文章,下面我再来看这样一个问题。这是原始数据现在我们想通过得到,两个文件,一个文件里面是bigdata的news,另一个文件时其他的news。通过自定义输出就可以做到。代码部分首先目录结构:mapperClasspackage costomOutputFormat;import org.apache.hadoop.io.LongWritab...原创 2020-01-29 13:13:59 · 250 阅读 · 0 评论 -
大数据学习(十二)mapreduce自定义输入 inputformat
简介这一篇我讲给大家分享如何自定义输入和输出,可能听起来比较抽象,我们用实际应用中的一个例子来说明。自定义输入问题我们现在有这样的数据文件,每个文件的数据格式是这样的那么我们除了用conbiner以外,还有什么效率更高的,所谓更高端的方式来将这些小文件进行合并吗。下面我们就通过自定义输入,重写FileinputFormat中的方法来完成这个目标。自定义输入目录结构:Mapp...原创 2020-01-29 12:41:22 · 257 阅读 · 0 评论 -
大数据学习(十一)mapreduce实现寻找共同好友 JobControl实现有向无环图
注:大家千万注意,这里只是一个MR的练手项目,在实际的应用中不要使用MR计算好友推荐和计算有向无环图逻辑的程序。因为MR会需要将中间结果写入磁盘所以磁盘IO大大削弱了效率。Hadoop告一段落后我会介绍spark的应用。共同好友数据原型用户:好友1,好友2。。。最终输出右边的都是共同好友。目录结构我简述一下思路,很明显这里有两个步骤,step1、step2,并且第二部...原创 2020-01-27 18:40:22 · 1583 阅读 · 0 评论 -
大数据学习(十)mapjoin reducejoin
目的我们一开始有两个数据,一个是学生表另一个是选课表注:实际情况中学生表是一个比较小的表,二选课表是大表我们通过mapreduce程序实现将选课表中的学号换成姓名。得到新的数据mapjoin目录结构这一次并不需要用到reduce阶段,但是在reducejoin中会使用。我们先看相对简单的mapjoin。先看代码mapClasspackage mapJoin;impor...原创 2020-01-27 11:41:16 · 1756 阅读 · 0 评论 -
大数据学习(九)mapreduce数据压缩 二次排序
数据压缩简介压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化...原创 2020-01-21 18:03:46 · 468 阅读 · 0 评论 -
大数据学习(八)MR wordcount进阶 partition+序列化排序
简介上一章介绍了MR的wordcount的demo,这一节我们来进行扩充,逐步将wordcount丰富,拥有更多的业务基础逻辑。我们目标是实现自主切分partition,生成自定义的数量和数据特征的partition文件。并且实现序列化数据bean,利用writableComparable接口实现升序降序排列。首先我们看一眼数据,这是我随便敲的。我们用partition分成两个文...原创 2020-01-19 11:13:43 · 408 阅读 · 0 评论 -
大数据学习(七)mapreduce wordCount讲解与实现
MR案例一(wordcount)前面的文章写了HDFS和Mapreduce的机制,现在我们要动手写一些最基本的分布式计算实例。本章主要写最基本的wordcount的一个基础demo,后面会逐渐进行丰富和完善。有基础的大佬还望勿喷。目的我们要完成一个MR,进行分词和计数由:最终得到:目录结构具体代码mapperimport org.apache.hadoop.io.IntW...原创 2020-01-18 10:54:11 · 449 阅读 · 0 评论 -
大数据学习(六)HDFS读写机制 hadoop副本存储节点选择
上一篇我们讲过了java的HDFSAPI操作,现在这篇blog分享一下HDFS的读写机制,和hadoop架构中的副本存储节点的选择HDFS写数据机制简述:客户端向namenode请求上传文件,namenode检查目标路径的环境是否已存在。namenode返回上传应答。block上传到哪几个DN节点。namenode返回3个节点,分别为dn1、dn2、dn3。客户端请求dn1上传数...原创 2019-12-22 18:14:29 · 1561 阅读 · 0 评论 -
大数据学习(五)java实现hdfsAPI
前面搭好了集群,然后也知道了如何用命令行命令来实现文件的管理,然后也可以用web控制面板来查看上传的文件了,很显然在实际的应用中是不可能使用命令行做操作的。有些人可能不知道hadoop一开始是lucene的子项目,那么肯定hadoop就有java的API了,现在就让我们来实现以下比较常见的操作。我是用的伪分布模式进行演示,其实是一样的。maven我建议使用国内的云这个大家上网搜一下mave...原创 2019-12-22 17:18:55 · 406 阅读 · 2 评论 -
大数据学习(四)web控制面板和hdfs常用命令
web控制面板这是非常直观的查看我们的集群状态和文件系统内容的一个web端的dashboard如果大家安装过httpd或者其他服务器的话应该就会很好的理解了。步骤首先打开集群,具体命令和过程可以参考我原来的blog,然后查看ip地址,然后如果你没有对端口做任何的配置那么默认的端口就是50070。那么直接打开你本机的web浏览器输入IP:50070就得到如下图所示:这很简单。当然别忘记...原创 2019-12-22 14:50:14 · 444 阅读 · 0 评论 -
大数据学习(三)Hadoop生态简介
Hadoop优势高可靠性:由于在不同的节点或者相同的节点都存在着一份或者多份的数据副本也就是备份(后面会我会告诉大家如何设置数据备份的数量),所以面对类似单点故障的情况也不会发生一些数据安全的问题。高扩展性:我们利用Hadoop框架进行集群的搭建,所以我们可以进行结点的扩展,很方便,便于算力、资源的扩展。高效性:Hadoop框架使用的是并行处理的处理方式,多个节点同时工作,效率非常高。当...原创 2019-09-14 11:50:12 · 325 阅读 · 0 评论 -
大数据学习(二)Hadoop简介+伪分布安装配置
为什么是Hadoop高可靠性:Hadoop维护多个数据副本当出现单点故障的时候可以对节点进行重新分布。高扩展性:我们可以增加或者减少服务器节点/数据节点。非常适合于现在科技工业的运维。高效性:Hadoop中的MapReduce采用分布式计算框架继续宁数据的处理,速度较快,(当然MapReduce在实际中用的并不多,因为读写硬盘非常的浪费时间,后米娜我们会提到)。容错性:第一点我们说到Ha...原创 2019-08-05 20:57:58 · 342 阅读 · 0 评论 -
大数据学习(一)前言+初识大数据
前言发这篇博客的时候我本身还是一名大二的学生,本身就是计算机互联网的专业而且自己本身就对大数据非常感兴趣。不知怎么的就是想把自己的学习的东西还有些许感悟记录下来,方便其他人学习和一起交流,所有我会一直更新一个大数据的学习系列。也算是给自己学习到的东西巩固巩固了。什么是大数据数据现在太火了简直,新闻联播里都提过不知道多少回了,所以出现在人们生活和工作中的大数据这个词简直可以用泛滥来形容了。但是...原创 2019-07-16 16:34:59 · 390 阅读 · 0 评论