_PREPER_MAN-CSDN博客

原创大数据之Hadoop

HDFSHDFS写流程HDFS读流程MapReduceYarn工作机制

2021-05-03 12:02:43 111

PCAurlfrom sklearn.decomposition import PCAnewX = pca.fit_transform(X) #等价于pca.fit(X) pca.transform(X)invX = pca.inverse_transform(X) #将降维后的数据转换成原始数据print(pca.explained_variance_ratio_) # 返回所保留的n个成分各自的方差百分比...

2020-11-30 15:33:07 158

原创数据可视化

seabornSeaborn-05-Pairplot多变量图

2020-10-21 15:41:54 101

原创 hadoop安装

文章目录1.基础设施2.部署配置（应用软件安装）参考1.基础设施2.部署配置（应用软件安装）

2020-09-26 20:31:26 118

原创 pandas使用场景

文章目录层次化索引数据重塑groupby的索引和迭代数据的合并merge,concat,join数据合并mergeapply函数pandas数据筛选pandas处理时间pandas去重层次化索引pandas中的层次化索引使我们能以低纬度形式处理高纬度数据data.unstack().stack()数据重塑df.pivot() # 将列数据转化为多维数据# 调用pivot方法前需要保证数据集中不存在重复条目df.pivot(index='列名',columns='列名',values='列

2020-09-07 13:44:13 920

原创 SPSS方差分析

单因素方差分析适用情形年龄（Factor）（因子）【离散】在家庭疏远感（Dependent List）（因变量列表）【连续】上是否存在显著差异路径Analyze -> Compare Means -> One Way ANOVA分析 => 比较平均值 => 单因素ANOVA结果解读p<0.5即存在显著性差异平均值（看差异程度）（包含了单因素方差分析）路径Analyze -> Compare Means -> Means分析 => 比

2020-07-29 23:07:02 1251

原创大数据之Hive

文章目录Hive入门Hive安装Hive入门![Hive运行机制](https://img-blog.csdnimg.cn/20200712123721813.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zOTYzMzk0Mw==,size_16,color_FFFFFF,t_70Hive安装...

2020-07-12 12:40:16 320

原创 MySQL应用场景

文章目录max()与group by共用时易错max()与group by共用时易错url问题：group by分组后，则返回的是第一条记录的基本信息的特性解决方法：先子查询order by，再外层用group byselect name, type, MAX(score) from (select * from order_test order by score desc) as a GROUP BY type...

2020-07-10 11:37:02 756

原创 pyspark入门

pyspark入门欢迎使用Markdown编辑器spark streaming无状态转换有状态转换sockets数据流欢迎使用Markdown编辑器你好！这是学习pyspark的记录。spark streamingSpark Streaming利用Spark Core的快速调度能力执行流数据的分析。它以最小批次获取数据，并对批次上的数据执行RDD转化。这样的设计，可以让用于批处理分析的Spark应用程序代码也可以用于流数据分析，因此便于实时大数据处理架构的实现。但是这种便利性带来的问题是处理最小

2020-07-06 18:33:36 356