自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据库-0829

数据库设计范式:是符合某一种级别的要求集合。访问并操作数据项的一个数据库操作序列。多张表+个表之间得关系。

2022-08-30 09:10:55 299 1

原创 Java学习-0824

第三天、、、

2022-08-24 21:43:52 170

原创 Java学习-0823

java基础0823

2022-08-24 08:42:55 210

原创 Java学习-0822

从零开始学习java,冲鸭

2022-08-23 08:21:26 164

原创 Hadoop文件格式学习

2/15-Hadoop文件格式学习hdfs文件格式主要有哪些,优点是什么,每个文件格式的压缩比?是什么情况linkhdfs文件格式可以分为面向行和面向列两大类:3.1 面向行、面向列文件格式3.1.1 面向行有SequenceFile、MapFile、Avro Datafile形式面向行的文件是将同一行的数据存储在一起,如果只需要访问行的一小部分数据,也需要将整行读入内存。该方式适合于整行数据需要同时处理的情况。优点:具备快速数据加载和动态负载的高适应能力,因为行存储保证了相同记录的所

2022-02-18 10:25:10 2595

原创 学习数据倾斜的处理

2/11-学习数据倾斜的处理1 数据倾斜时的常用的处理思路数据倾斜的表现形式:用Hive算数据时reduce阶段卡在99.99%用SparkStreaming做实时算法时,一直会有executor出现OOM的错误,但是其余的executor内存使用率很低1.1 定位数据倾斜原因1.1.1查阅代码查阅代码中会产生shuffle的算子,如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等算子,根据代码

2022-02-18 10:11:43 1020

原创 数据分区&分桶学习

2/10-数据分区&分桶学习1 Hive分区1.1 静态分区把输入数据文件单独插入分区表的叫静态分区。通常在加载文件(大文件)到 Hive 表的时候,首先选择静态分区。在加载数据时,静态分区比动态分区更节省时间。你可以通过 alter table add partition 语句在表中添加一个分区,并将文件移动到表的分区中。我们可以修改静态分区中的分区。您可以从文件名、日期等获取分区列值,而无需读取整个大文件。如果要在 Hive 使用静态分区,需要把 hive.mapred.mo

2022-02-18 10:05:39 791

原创 开窗函数学习&数据质量保障

1/29-开窗函数学习&数据质量保障1 开窗函数2 数据质量保障1. 数据质量风险监控2. 数据资产定级3. 任务发布上线卡点校验4. 数据质量风险监控1 开窗函数只有在SELECT和ORDER BY处理阶段才允许使用OVER子句一次select中两个sum()over()之间不能相除sql执行逻辑顺序:FROM、WHERE、GROUP BY、HAVING、SELECT 、OVER、DISTINCE、TOP、ORDER BY数据情景根据以上数据,需要统计专家在指定时间段内添加了

2022-02-18 10:03:09 218

原创 sklearn做文本聚类分析

对文本Kmeans聚类分析前言背景目的与思路数据预处理分词处理采用jieba分词停用词处理获取停用词表去除停用词生成tf-idf矩阵Kmeans聚类获取分类获取分类文档获取主题词结论前言背景为了研究用户对数字音乐付费的影响因素,我们采用了配额抽样的调查方法,共发出并收回有效问卷765份,其中问卷最后一题为开放性提问“Q42_H1.您认为当前数字音乐付费模式存在哪些问题以及相应的建议?”。我们将问卷中该问题的回答文本进行处理,探究不能类型的建议对于用户是否付费带来的影响。目的与思路目的:对建议文本

2021-03-28 09:35:18 1336 2

原创 R-交通事故数据分析报告

美国交通事故分析引言数据基本分析缺失值处理2.2 各州事故总数2.3时间处理3影响因素3.1天气状况3.2时间因素3.3路况因素4 预测分析5 总结引言该数据来源于kaggle网站中的一个项目,其原数据集(US_Accidents_Dec20)是一个数据量49列,共400多万数据量包含2016-2020年交通事故信息。本文的目标是对这些数据进行统计分析,探寻发生事故最多的州,并探查什么时候容易发生事故,事故发生时天气状况,并对此做出可视化展示:总结分析所得信息,讲述美国发生事故的总体情况,找出影响事故

2021-03-17 09:16:27 8031 3

原创 运营商客户流失分析

电信运营商客户流失分析客户流失预测分析的必要性方法1 原始数据分析1.1数据清洗1.2 可视化分析1.2.1 客户属性分析1.2.2 服务属性分析1.2.3 合同属性分析1.2.4 相关性分析2 建立模型对客户流失预测2.1 模型的建立2.2 模型的实证结果3 结论与建议3.1 结论3.2 建议客户流失预测分析的必要性本项目数据来源于Kaggle上关于运营商客户流失预测分析项目关于客户留存对公司的利润的影响一直有这样一个观点,如果将客户流失率降低 5%,公司利润将提升 25%-85%。研究表明,企业

2021-03-17 08:11:01 2849

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除