自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 算法练习-KNN分类预测

#导入需要的包import numpy as npimport pandas as pd#读取文件data = pd.read_csv("./iris.csv")#清洗数据,将Species列转化为数字data["Species"] = data["Species"].map({"virginica":0,"setosa":1,"versicolor":2})#删除Id列并替换data中的数据data.drop("Id",axis=1,inplace=True)#删除重复行并替换data

2020-09-16 10:36:19 1023

原创 大数据常见面试之算法

文章目录一.海量数据处理1.给一个超过100G大小log file ,log中存着IP地址,设计算法找到出现次数最多的IP地址2.与上题条件相同,如何找到top k的IP?3.给定100亿个整数,设计算法找到只出现一次的整数4.给两个文件,分别由100亿个query,我们只有1G内存,如何找到两个文件交集分别给出精确算法和近似算法5.如何扩展BloomFilter使得它支持删除元素的操作?6.给上千个文件,每个文件大小为1K-100M,给n个词,设计算法对每个词找到包含他的文件,只有100K内存7.有一个词

2020-09-14 14:43:25 1019

原创 大数据常见面试题之hive

文章目录一.描述一下Hive动态分区和分桶使用场景和使用方法1.分区2.分桶二.Hive是怎么集成HBase三.Hive join查询的时候on和where有什么区别四.Hive里面的left join是怎么执行的?五.Hive内部表,外部表,分区表六.Hive和mysql有什么区别,大数据为什么不用MySQL做存储和数据处理?七.Hive如何调优八.Hive数据倾斜原因和处理?九.Hive的自定义函数实现了什么接口什么方法?十.使用Hive-sql如何查询A表中B表不存在的数据?十一.如何控制Hive中M

2020-09-13 19:50:38 968

原创 大数据常见面试题之MapReduce

文章目录一.MapReduce的执行流程二.MapReduce写过吗?有哪些关键类?mapper的方法有哪些?setup方法是干嘛的?它是每读一行数据就调用一次这个方法吗?1.关键类2.mapper的方法有setup,map,cleanup,run三.有个需求,要求一条指令可以把所有文件都shuffle到同一partition中,用MapReduce的话,你怎么写?四.Hadoop Shuffle原理(越详细越好)?五.combine函数的作用?六.简列几条MapReduce的调优方法1.数据输入2.Map

2020-09-13 18:03:45 1860

原创 大数据常见面试题之HBase

一.为什么使用HBase存储HBase(Hadoop Database) 是一个靠可靠性,高性能,可伸缩,面向列的分布式数据库HBase与Hadoop的关系非常紧密,Hadoop的hdfs提供了高可靠性的底层存储支持,Hadoop MapReduce 为 HBase提供了高性能的计算能力,zookeeper为Hbase提供了稳定性及failover机制的保障. 同时其他周边产品诸如Hive可以与HBase相结合使在HBase进行数据统计处理变得简单,Sqoop为HBase提供了方便的RDBMS数据导入

2020-09-13 11:40:04 595

原创 大数据常见面试题之hdfs

一hdfs.写数据流程1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2.NameNode返回是否可以上传。不能上传会返回异常。3.确定可以上传,客户端请求第一个block上传到哪几个datanode服务器上。4.NameNode返回3个datanode节点,假定分别为dn1,dn2,dn3。5.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn

2020-09-13 10:52:21 1523

原创 数据仓库经典销售案例

文章目录一、业务库1.1 数据模型1.2生成数据二、数据仓库2.1 模型搭建2.1.1 选择业务流程2.1.2 粒度2.1.3 确认维度2.1.4 确认事实2.1.4.1 建立物理模型2.1.4.2 建库、装载数据三.编写脚本配合 crontab 命令实现 ETL 自动化一、业务库1.1 数据模型源系统是 mysql 库,数据模型如下1.2生成数据-- 建库CREATE DATABASE IF NOT EXISTS sales_source DEFAULT CHARSET utf8 COL

2020-09-03 16:12:59 2537

原创 数据仓库理论介绍

文章目录一.数据仓库1.什么是数据仓库1)面向主题2)集成3)非易失4)随时间变化二.数据仓库和数据库的区别三.数据仓库的架构四.数据仓库的建模1.选择业务流程2.声明粒度3.确认维度4.确认事实5.星型模型特点6.雪花模型特点一.数据仓库1.什么是数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合1)面向主题主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上,它是对应企业

2020-09-01 12:57:34 689

原创 记录kettle无法连接hive表异常

问题描述:使用kettle连接hive2服务时遇到异常错误连接数据库 [hive_default] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseError connecting to database: (using class org.apache.hive.jdbc.HiveDriver)Illegal Hadoo

2020-09-01 07:14:46 1141

ip地址范围对应转换表

使用纯真工具下载最新ip地址转换 然后将txt文件上传到linux系统 导入spark中,使用spark连接mysql 将表保存到mysql中 然后将表导出sql脚本文件

2020-08-17

MobaXterm.11.0.zip

mobaXterm11.0版本 是一款小巧便捷的绿色软件 用于连接虚拟机,可用于本地和虚拟机之间数据传输

2020-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除