Dylan~-CSDN博客

原创大数据分析师题库整理（Final）

Day21916 Spark on YARN模式下，没有Node Manger的节点不能启动executor执行task。对917 Spark任务的Executor可以执行多个task对918 Hadoop支持数据的随机读写错919 NameNode负责管理元数据信息metadata，client端每次读写请求，它都会从磁盘中读取或会写入metadata信息并反馈给client端。错920 MapReduce的input split一定是一个block 。错9..

2021-10-19 11:16:09 2121 1

原创大数据分析师题库整理（Part Four）

Day16691 Rowkey设计的原则，下列哪些选项的描述是正确的?尽量保证越短越好可以使用汉字可以使用字符串692 HBase构建二级索引的实现方式有哪些?MapReduceCoprocessor693关于HBase二级索引的描述，哪些是正确的?核心是倒排表二级索引概念是对应Rowkey这个“―级”索引694下列关于BloomFilter的描述正确的是?是一个很长的二进制向量和一系列随机映射函数有一定的误算率695 HBase官方版本可以安装在..

2021-10-15 18:25:51 2558 1

原创大数据分析师题库整理（Part Three）

Day 11466关于Hadoop HDFS名称节点中的元数据信息，下面说法正确的是（) 。文件是什么:包括目录自身的属性信息，例如文件名，目录名，修改信息等文件被分成了多少块467关于Hadoop HDFS1.0的局限性包括( )。命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。性能的瓶颈：整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。隔离问题：由于集群中只有一个名称节点，只有一个命名空间，因此，无..

2021-10-11 16:26:38 3677 2

原创大数据分析师题库整理（Part Two）

Day 05196.Fusioninsight Manager用户权限管理不支持哪个配置给用户组配置权限197.以下哪个不属于Hadoop 中Mapreduce组件的特点实时计算198. Hbase的某张表的Rowkey划分splitkey为9.E.a.2.请问表里面有几个Region 4199.为了保障流应用的快照存储的可靠性,快照主要存储在哪里Hdfs中200.在fusionInsigh产品中,关于kafka的 topic.以下描述不正确的是每个topic只能被分成...

2021-10-06 00:16:06 2783 1

原创大数据分析师题库整理（Part One）

Day 0116.下列哪个属性是hdfs-site.xml中的配置 dfs.replication17.以下不属于监督学习模型的是关联分析18.以下四项指标中，不能用于线性回归中的模型比较的是 R方19.以下选项不属于原始数据来源的是统计年鉴20.以下选项哪个不属于分类算法 K-MEANS21.以下选项中，哪个有可能是Apriori算法所挖掘出来的结果? 以上都不是22.针对聚类分析，下面说法错误的是一定存在一个最优的分类23.HDFS中的数据块(block ）默认

2021-10-02 16:14:10 6652 1

原创爬虫案例之爬取国家药监局化妆品生产许可明细（爬取动态加载数据）

一、实验目的爬取国家药监局（化妆品生产许可信息管理系统服务平台 (nmpa.gov.cn)）化妆品生产明细（具体到每家企业的具体信息），当我们进入该网站首页时，发现其结构为每页15条的json类型数据。如图以下简称首页：点开企业名称对应的超链接跳转到我们需要爬取的页面，以下简称详情页：我们需要爬取详情页上所有信息存为json格式到本地。二、获取动态加载数据的URL 我们首先通过爬取首页信息验证是否可以通过爬取每条企业数据的超链...

2021-09-28 00:46:36 8284 18

原创关于爬虫（Part Two）

目录一、爬虫之验证码1、输入式验证码2、滑动式验证码3、点击式验证码二、爬虫之动态加载数据处理——selenium模块1、基本介绍2、使用流程3、定位元素的方式4、实例三、 Scrapy框架1、概述2、基本构成3、基本流程一、爬虫之验证码当我们在遇到需要登陆或者注册的网站时就会遇到验证码，验证码的出现就是为了区分人和机器，但是随着现在人工智能的发展，这种区分已经不明确了，在python中有PIL库进行图像处理、机器学习也能更好地解决...

2021-09-14 00:56:37 1069 1

原创关于爬虫（Part One）

目录一、关于爬虫1.1 概念1.2 爬虫的分类1.3 爬虫的流程原理1.4 HTTP协议1.5 HTTP之URL1.6 HTTP之Request1.7 HTTP之Response二、Requests模块1.1 基本用法1.2 请求方式1、Get请求：2、Post请求：3、解析Json简单保存二进制文件：4、简单保存二进制文件:5、填写头信息:三、数据解析3.1 概念：3.2 数据解析分类：3.3 数据解析原理概述...

2021-09-04 20:40:30 272

原创关于数据安全及保密（基于大数据板块的整理）

目录一、绪二、大数据安全与隐私保密需求2.1 大数据安全2.2 大数据隐私保密三、大数据安全与隐私保护技术框架3.1 大数据安全技术1.大数据访问控制2.安全检索四、基本密码学工具4.1 加密技术4.2 数字签名技术4.3 Hash 和 MAC 技术五、隐私保密技术基础知识5.1 数据隐私保护场景5.2 隐私保密需求一、绪随着云计算、物联网及移动互联网技术的迅速发展，人们已经迈入大数据时代。大数据技术正在加速推进...

2021-08-30 22:07:57 17596

原创关于数仓及其分层

目录一、基本介绍二、数据仓库的特点1、面向主题2、数据集成3、相对稳定4. 反映历史变化三、数仓工具1、一般工具2、大数据学习工具之Hive2.1 Hive的大数据学习优势2.2 Hive数据仓库架构及原理四、数据仓库作用五、数仓分层1、数仓分层作用2、分层架构2.1源数据层（ODS）2.2数据仓库层（DW）2.3数据展示层（DA或APP）2.4维表层（Dimension）3、分层实例4、技术应用六、实例1、数据来.

2021-08-22 01:11:55 6777