北京小辉-CSDN博客

原创大数据面试题(三)----MapReduce面试题

谈谈Hadoop 序列化和反序列化及自定义bean 对象实现序列化?1）序列化和反序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的...

2020-01-06 19:12:43 2021 4

原创大数据面试题(一)----HADOOP 面试题

目录一、Hadoop 基础二、HDFS基础一、Hadoop 基础下列哪项通常是集群的最主要瓶颈（C）A. CPUB. 网络C. 磁盘IOD. 内存下列哪项可以作为集群的管理工具？（C）A.PuppetB.PdshC.ClouderaManagerD.Zookeeper下列哪个是Hadoop 运行的模式？（ABC）A. 单机版B. 伪分布式C. 完全...

2020-01-06 15:13:47 6224 3

原创 Spark2.3.3创建DataFrame的14种方式和源码解析（五）【全网最全】

目录一、需求分析二、数据展示三、无头文件的CSV分析四、有头文件的CSV分析一、需求分析将CSV文件转为DataFrame，其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90....

2020-01-04 20:42:52 564

原创 Spark2.3.3创建DataFrame的14种方式和源码解析（四）【全网最全】

目录一、问题分析二、@BeanProperty分析三、Scala Class创建DataFrame代码四、结果展示一、问题分析注：此处的普通类指的是scala中定义的非case class的类框架在底层将其视作java定义的标准bean类型来处理而scala中定义的普通bean类，不具备字段的java标准getters和sett...

2020-01-04 19:58:14 496

原创 Spark2.3.3创建DataFrame的14种方式和源码解析（三）【全网最全】

目录一、数据源二、SparkSQL通过Mysql创建DataFrame代码三、结果展示一、数据源CREATE TABLE student( id int not null primary key, name varchar(20), age int(20), city varchar(20), score double(20,2))ENGINE=InnoDB ...

2020-01-04 19:36:55 370

原创 Spark2.3.3创建DataFrame的14种方式和源码解析（二）【全网最全】

目录一、SparkSQL通过Hive创建DataFrame问题分析问题一：问题二：问题三：问题四：问题五：...

2020-01-04 19:26:43 573

原创 Spark2.3.3创建DataFrame的14种方式和源码解析（一）【全网最全】

目录一、数据源二、Maven的依赖三、创建DataFrame方法9种Case Class 创建DataFrameTuple 创建DataFrameJavaBean 创建DataFrameRow 创建DataFrameset集合创建DataFramemap集合创建DataFrameArray数组创建DataFramemysql 创建DataFrameparquet 创...

2020-01-04 18:58:18 583

原创大数据优化方案----Spark案例优化(一)

一、需求通过分析用户浏览新闻热门话题的日志，统计每个话题下被浏览量最多的用户topN，即按照话题分组，在每一个组内进行排序二、样例数据数据格式：话题,时间,被浏览的用户id#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,20...

2019-12-30 22:21:51 728 1

原创 MAVEN仓库中LastUpdated文件生成原因及删除方法[Windows和Linux]

maven仓库中的LastUpdated文件生成原因maven依赖中由于各种原因(网速慢、断网)导致jar包下载不下来，出现很多.lastUpdated文件。只能手动删除这些文件。同时一个Jar包中可能依赖其余Jar包。但是一个一个删除太麻烦。所以需要一个批量操作的脚本。hbase-client-2.2.1.pom.lastUpdated 内容如下：#NOTE: This is a Mav...

2019-12-30 21:21:57 2959

原创大数据面试宝典目录--【每天】不断更新中请期待

JAVA面试题目录mysql分组取topN的三种方式大顶堆和小顶堆–Java版二分查找–Java版大数据面试题目录

2019-12-28 09:43:26 3539 8

原创 Hive教程（三）---Hive的集合数据类型创建和查询

目录一、map类型创建和查询二、array类型创建和查询三、struct类型创建和查询一、map类型创建和查询操作步骤## 建表语句create table hive_map(id int , name string , data_map map<string,string>)row format delimited fields terminated by ' '...

2019-12-22 22:26:19 1010

原创 Spark深入解读（九）---- 窗口函数和API集合

目录一、窗口函数种类二、具体用法如下三、数据及程序四、结果展示一、窗口函数种类ranking 排名类analytic 分析类aggregate 聚合类Function TypeSQLDataFrame APIDescriptionRankingrankrankrank值可能是不连续的Rankingdense_rankdenseRank...

2019-12-21 15:36:30 611

原创 classOf[T]、getClass和 class

目录一、classOf[T]、getClass和 class案例二、关于协变和逆变三、总结：一、classOf[T]、getClass和 class案例上面显示了两者的不同之处，getClass 方法得到的是 Class[A]的某个子类，而 classOf[A] 得到是正确的 Class[A]，但是去比较的话，这两个类型是equals为true的。这里有细微的差别，体现在类型赋...

2019-12-20 18:18:51 905

原创 scala 数据类型体系一览图

在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象，分为两大类AnyVal(值类型)，AnyRef(引用类型)，他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型，它只有一个值 null, 他是 bottom calss ,是所有 AnyRef 类型的子类.Nothing类型也是bottomclass,他是所有类的子...

2019-12-20 11:25:22 534

原创通过fastjson解析json数据工具

目录一、原始数据内容二、通过fastjson解析json数据一、原始数据内容eventLogJson.txt{ "u": { "cookieid": "HsOorABPB", "account": "05289", "email": "Fh8h@G4hbi.com", "phoneNbr": "20096655112", "birthday": "2002-01-1...

2019-12-15 20:33:04 461

原创 TF-IDF（词频-逆文档频率）介绍

概念词频-逆文档频度（Term Frequency - Inverse Document Frequency，TF-IDF）技术，是一种用于资讯检索与文本挖掘的常用加权技术，可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。如果某个...

2019-12-11 14:55:34 5686 2

原创 Mysql案例（一）---分组取topN的三种方式

问题：有表如下，要求取出各班前两名（允许并列第二）表内容如下所示：idSNameClsNoScore1AAAAC1672BBBBC1553CCCCC1674DDDDC1655EEEEC1956FFFFC2577GGGGC2878HHHHC2749IIII

2019-12-10 09:27:17 943

原创 Mysql教程（十二）---cross join 的用法(笛卡尔积)

CROSS JOIN又称为笛卡尔乘积，实际上是把两个表乘起来。[实例]:SQL CROSS JOIN will return all records where each row from the first table is combined with each row from the second table. Which also mean CROSS JOIN returns the...

2019-12-06 15:08:57 1655

原创数学常识--数学符号常识

科学计数法中的E在科学计数法中，为了使公式简便，可以用带“E”的格式表示。E（代表指数）表示将前面的数字乘以 10 的 n 次幂。1.23E+10，即 1.23 乘以 10 的 5 次幂 = 1230001.23E-10，即 1.23 乘以 10 的 -5 次幂 = 0.0000123自然指数e自然指数e，为自然对数的底数，有时亦称之为欧拉数（Euler’s Number），是一个无限...

2019-12-05 22:08:46 13182 3

原创数学常识--两点之间距离公式

方差和标准差标准差（Standard Deviation），中文环境中又常称均方差，是离均差平方的算术平均数的平方根，用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。⒈方差 s^2=[（x1-x）^2+（x2-x）^2+......（xn-x）^2]/（n）（x为平均数）⒉标准差...

2019-12-05 18:33:47 6814

原创数学常识--标准差、方差、协方差三者的表示意义

三者都是统计学中，对于样本的集合描述。一、定义公式１．标准差：２．方差：３．协方差：４．协方差相关系数：二、数学实际含义 ...

2019-12-05 16:22:18 4606

原创 HBase BulkLoad批量写入数据实战

目录1.概述2.内容2.1 实现原理2.2. 生成HFile文件2.3. 执行预览2.4 使用BulkLoad导入到HBase2.4.1 代码实现导入2.4.2 使用HBase命令进行导入2.5 验证3.总结1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用Map...

2019-11-18 16:20:02 557

原创 MapPartition和Map的区别

在Spark中有map和mapPartitions算子，处理数据上，有一些区别主要区别： map是对rdd中的每一个元素进行操作； mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点：...

2019-11-15 16:01:48 728 3

原创 DSP、SSP、RTB、ADX、DMP（概念通俗解释）

DSP：需求方平台比如小米想要投放一个新机发布的广告，那么他想在各大网站如网易、新浪UC等地方投放这条新机信息，但他不可能一个一个的去谈，费时费财不说，效率非常低。于是他就去了一个平台，把打广告的钱冲进去，也就是广告费，然后在这个平台里选择投放的媒体，比如UC、新浪、网易等，然后跟淘宝一样的完成结算。OK，这类似于淘宝的平台就是DSP，里面有很多的ssp提供的媒体小米把钱冲进去了，DSP平...

2019-11-09 19:48:25 3264

原创 Spark机器学习--组件Mllib的学习 RowMatrix行矩阵

一、解释分布式行矩阵有：基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵功能一次增加二、代码：/** * Spark MlLib机器学习实战 */package org.apache.spark.mllib.learning.basic import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spa...

2019-11-06 13:12:05 613

原创 Spark机器学习--矩阵的定义——scala版本

目录一、本地向量二、含类标签的点三、稀疏数据Sparse data四、本地矩阵五、分布式矩阵5.1 面向行的分布式矩阵(RowMatrix)5.2行索引矩阵(IndexedRowMatrix)5.3三元组矩阵(CoordinateMatrix)一、本地向量本地向量的基类是 Vector,我们提供了两个实现 DenseVec...

2019-11-06 13:09:15 615

原创 hive函数大全

目录一、hive函数之数学函数二、hive函数之聚合函数三、hive函数之表生成函数四、hive函数之其他内置函数一、hive函数之数学函数round(double d)--返回double型d的近似值（四舍五入），返回bigint型；round(double d,int n)--返回保留double型d的n位小数double型近似值（四舍五入）；floor(double d)-...

2019-11-06 12:07:40 615

原创 Header:请求头参数详解

Header解释示例Accept指定客户端能够接收的内容类型Accept: text/plain, text/html,application/jsonAccept-Charset浏览器可以接受的字符编码集。Accept-Charset: iso-8859-5Accept-Encoding指定浏览器可以支持的web服务器返回内容压缩编码类型。Accep...

2019-11-05 17:10:09 8247

原创 Spark机器学习--四种归一化方法总结及图文解释

目录：一、描述二、数据准备三、 Normalizer四、 StandardScaler五、 MinMaxScaler六、MaxAbsScaler七、总结一、描述org.apache.spark.ml.feature包中包含了4种不同的归一化方法：NormalizerStandardScalerMinMaxScalerMaxAbsScaler &nbs...

2019-10-21 15:02:00 1948 1

原创 sqoop--离线数据接入平台项目详解

目录1、需求2、架构和步鄹3、细化步鄹讲解1、需求近期公司需要抽取mysql和SqlServer数据到hive中，且将数据处理过程成需要进行加密脱敏。2、架构和步鄹3、细化步鄹讲解1、源数据到stage功能描述：抽取关系型数据库中数据（全量或增量）启动方式：extract -n stageDataBaseName -s stageTableName ...

2019-10-18 12:14:23 843

原创 Intellij IDEA2019.2：常用快捷键

一、首先：setting–>keymap–>eclipse使用Idea的目的就是为了编码完全脱离鼠标，虽然使用快捷键编码时很方便可以很长时间不碰鼠标，但windows系统查看文件、数据库什么的还是需要用到鼠标，这点相当郁闷，一直来的简单追求，脱离个鼠标而已；难道只能linux下编程可以完全抛弃鼠标吗？标记颜色的是我比较常用的，欢迎大家留言，我也会尽力更新完善二、我的Mac自定义...

2019-10-12 21:51:25 1478

原创 Sqoop每天全量抽取SqlServer的数据存储到hive中

需求：1、通过Sqoop每天全量抽取SqlServer的数据，按照存储到hive中，通过hive的partition进行分割#!/usr/bin/env bash################################################################################# 功能描述：抽取关系型数据库中数据（全量）# 输入：源表名称、目...

2019-09-29 11:12:46 1588 2

原创 Hive教程（十三）---CDH 永久全局Hive的udf函数

目录1、需求2、Demo结构图及数据3、创建Hive表加载数据4、创建Hive的UDF函数及结果展示1、需求：进行公司需要做数据抽取工作，其中需要通过hive的UDF函数进行数据脱敏demo下载路径2、Demo结构图及数据数据及操作步骤在doc\data中，Maven中有配置依赖和Jar包名称，只要install就可以打包。#数据1|612345222220006543...

2019-09-29 11:12:21 1522

原创 64 if 条件句+宾语从的虚拟

IF条件状语从句（真实条件句）IF条件状语从句（虚拟条件句）从句主句与现在事实相反if + 主语+ did/were…主语+ would/could/should/might do…与过去事实相反If+主语+had done…主语+would/could/should/might have done…与将来事实相反If+主语+ did/were t...

2019-09-29 09:59:22 378

原创苹果MAC电脑双系统教程——MAC安装Windows双系统教程

软件百度云地址：https://pan.baidu.com/s/1liubpIHm7kx1XOiZr5p4sQ注意事项：首先找一个win的密钥，安装过程中要输入买了苹果MAC电脑却发现办公和一些软件、游戏根本无法安装。这时候就需要安装一个Windows了.现在一般支持WIN8-WIN10安装。准备工作：U盘一个（8G以上）、WINDOWS原版镜像、BOOTCAMP助理（苹果自带）、苹果电脑、...

2019-09-24 14:27:06 8940 4

原创 62 过去完成时+过去完成进行时

过去完成时和过去完成进行时比较Firemen had been fighting the forest for nearly three weeks before they could get it under control.A short time before, great trees had covered (cover) the countryside for miles aro...

2019-09-23 12:57:52 677

原创 Apache HBase region 拆分

目录一、描述二、提前分区三、自动分区四、强制分区五、参考连接一、描述在Hbase中split是一个很重要的功能，Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个re...

2019-09-19 18:14:12 716

翻译 Flink在kafka中Exactly-Once原理解说

翻译来源：Apache Flink中的端到端完全一次处理概述（与Apache Kafka一样！）Apache Flink中的端到端完全一次处理概述（与Apache Kafka一样！）2018年3月1日Piotr Nowojski（@PiotrNowojski）和Mike Winters（@wints）这篇文章改编自2010年Flink Forward Berlin的Piotr Nowojsk...

2019-09-19 14:13:37 3245 1

原创 55 非谓语动词语法

一、非谓语动词的概念动词的基本用法是作谓语。当句中已经有了谓语动词了，要选或要填的动词就只能用非谓语形式了。非谓语形式有三种：动词不定式：to do动词的ing : doing动词的过去分词：done非谓语动词语法二、三种形式的含义（基本用法）不定式：表示目的和将来；动词的ing：表示主动和进行；过去分词：表示被动和完成。三、非谓语动词的时态和语态一...

2019-09-19 09:22:42 665

原创 53 一般过去时+现在完成时+现在完成进行时

一般过去时+现在完成时+现在完成进行时一般过去时现在完成时现在完成时+现在完成进行时

2019-09-19 09:05:00 421

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

Mysql教程所有数据.zip

新概念2知识点.pdf

crawlerBank.py

Hive的Udf函数进行数据脱敏

sqoop的数据导入

SpringBoot的mvc三层以及增删改查页面

spring boot+mybatis整合

Lucene实战(第2版).pdf

SparkSql技术

MacBook Pro的快捷键

hadoop-Apache2.7.3+Spark2.0集群搭建

SqlServer驱动包

silentwolf

stable-diffusion-webui启动报错

微博对一条微博进行评论API

调用JEECG微博发帖API异常

mac版本idea中路径颜色设置