2020年09月_sun_0128

12月 11月 09月 08月 07月 06月

原创算法练习-KNN分类预测

#导入需要的包import numpy as npimport pandas as pd#读取文件data = pd.read_csv("./iris.csv")#清洗数据,将Species列转化为数字data["Species"] = data["Species"].map({"virginica":0,"setosa":1,"versicolor":2})#删除Id列并替换data中的数据data.drop("Id",axis=1,inplace=True)#删除重复行并替换data

2020-09-16 10:36:19 1023

原创大数据常见面试之算法

文章目录一.海量数据处理1.给一个超过１００Ｇ大小log file ,log中存着IP地址，设计算法找到出现次数最多的IP地址2.与上题条件相同,如何找到top k的IP?3.给定100亿个整数,设计算法找到只出现一次的整数4.给两个文件,分别由100亿个query,我们只有1G内存,如何找到两个文件交集分别给出精确算法和近似算法5.如何扩展BloomFilter使得它支持删除元素的操作?6.给上千个文件,每个文件大小为1K-100M,给n个词,设计算法对每个词找到包含他的文件,只有100K内存7.有一个词

2020-09-14 14:43:25 1019

原创大数据常见面试题之hive

文章目录一.描述一下Hive动态分区和分桶使用场景和使用方法1.分区2.分桶二.Hive是怎么集成HBase三.Hive join查询的时候on和where有什么区别四.Hive里面的left join是怎么执行的？五.Hive内部表,外部表,分区表六.Hive和mysql有什么区别，大数据为什么不用MySQL做存储和数据处理？七.Hive如何调优八.Hive数据倾斜原因和处理？九.Hive的自定义函数实现了什么接口什么方法？十.使用Hive-sql如何查询A表中B表不存在的数据？十一.如何控制Hive中M

2020-09-13 19:50:38 968

原创大数据常见面试题之MapReduce

文章目录一.MapReduce的执行流程二.MapReduce写过吗？有哪些关键类？mapper的方法有哪些？setup方法是干嘛的？它是每读一行数据就调用一次这个方法吗？1.关键类2.mapper的方法有setup，map，cleanup，run三.有个需求，要求一条指令可以把所有文件都shuffle到同一partition中，用MapReduce的话，你怎么写？四.Hadoop Shuffle原理（越详细越好）？五.combine函数的作用？六.简列几条MapReduce的调优方法1.数据输入2.Map

2020-09-13 18:03:45 1860

原创大数据常见面试题之HBase

一.为什么使用HBase存储HBase(Hadoop Database) 是一个靠可靠性,高性能,可伸缩,面向列的分布式数据库HBase与Hadoop的关系非常紧密,Hadoop的hdfs提供了高可靠性的底层存储支持,Hadoop MapReduce 为 HBase提供了高性能的计算能力,zookeeper为Hbase提供了稳定性及failover机制的保障. 同时其他周边产品诸如Hive可以与HBase相结合使在HBase进行数据统计处理变得简单,Sqoop为HBase提供了方便的RDBMS数据导入

2020-09-13 11:40:04 595

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sun_0128的博客

原创算法练习-KNN分类预测

原创大数据常见面试之算法

原创大数据常见面试题之hive

原创大数据常见面试题之MapReduce

原创大数据常见面试题之HBase

原创大数据常见面试题之hdfs

原创数据仓库经典销售案例

原创数据仓库理论介绍

原创记录kettle无法连接hive表异常

ip地址范围对应转换表

MobaXterm.11.0.zip

空空如也