- 博客(10)
- 收藏
- 关注
原创 sklearn简单应用
PCAurlfrom sklearn.decomposition import PCAnewX = pca.fit_transform(X) #等价于pca.fit(X) pca.transform(X)invX = pca.inverse_transform(X) #将降维后的数据转换成原始数据print(pca.explained_variance_ratio_) # 返回所保留的n个成分各自的方差百分比...
2020-11-30 15:33:07
158
原创 pandas使用场景
文章目录层次化索引数据重塑groupby的索引和迭代数据的合并merge,concat,join数据合并mergeapply函数pandas数据筛选pandas处理时间pandas去重层次化索引pandas中的层次化索引使我们能以低纬度形式处理高纬度数据data.unstack().stack()数据重塑df.pivot() # 将列数据转化为多维数据# 调用pivot方法前需要保证数据集中不存在重复条目df.pivot(index='列名',columns='列名',values='列
2020-09-07 13:44:13
920
原创 SPSS方差分析
单因素方差分析适用情形年龄(Factor)(因子)【离散】在家庭疏远感(Dependent List)(因变量列表)【连续】上是否存在显著差异路径Analyze -> Compare Means -> One Way ANOVA分析 => 比较平均值 => 单因素ANOVA结果解读p<0.5即存在显著性差异平均值(看差异程度)(包含了单因素方差分析)路径Analyze -> Compare Means -> Means分析 => 比
2020-07-29 23:07:02
1251
原创 大数据之Hive
文章目录Hive入门Hive安装Hive入门与group by共用时易错max()与group by共用时易错url问题:group by分组后,则返回的是第一条记录的基本信息的特性解决方法:先子查询order by,再外层用group byselect name, type, MAX(score) from (select * from order_test order by score desc) as a GROUP BY type...
2020-07-10 11:37:02
756
原创 pyspark入门
pyspark入门欢迎使用Markdown编辑器spark streaming无状态转换有状态转换sockets数据流欢迎使用Markdown编辑器你好! 这是学习pyspark的记录。spark streamingSpark Streaming利用Spark Core的快速调度能力执行流数据的分析。它以最小批次获取数据,并对批次上的数据执行RDD转化。这样的设计,可以让用于批处理分析的Spark应用程序代码也可以用于流数据分析,因此便于实时大数据处理架构的实现。但是这种便利性带来的问题是处理最小
2020-07-06 18:33:36
356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人