- 博客(10)
- 收藏
- 关注
原创 sklearn简单应用
PCAurlfrom sklearn.decomposition import PCAnewX = pca.fit_transform(X) #等价于pca.fit(X) pca.transform(X)invX = pca.inverse_transform(X) #将降维后的数据转换成原始数据print(pca.explained_variance_ratio_) # 返回所保留的n个成分各自的方差百分比...
2020-11-30 15:33:07 136
原创 pandas使用场景
文章目录层次化索引数据重塑groupby的索引和迭代数据的合并merge,concat,join数据合并mergeapply函数pandas数据筛选pandas处理时间pandas去重层次化索引pandas中的层次化索引使我们能以低纬度形式处理高纬度数据data.unstack().stack()数据重塑df.pivot() # 将列数据转化为多维数据# 调用pivot方法前需要保证数据集中不存在重复条目df.pivot(index='列名',columns='列名',values='列
2020-09-07 13:44:13 875
原创 SPSS方差分析
单因素方差分析适用情形年龄(Factor)(因子)【离散】在家庭疏远感(Dependent List)(因变量列表)【连续】上是否存在显著差异路径Analyze -> Compare Means -> One Way ANOVA分析 => 比较平均值 => 单因素ANOVA结果解读p<0.5即存在显著性差异平均值(看差异程度)(包含了单因素方差分析)路径Analyze -> Compare Means -> Means分析 => 比
2020-07-29 23:07:02 1179
原创 大数据之Hive
文章目录Hive入门Hive安装Hive入门![Hive运行机制](https://img-blog.csdnimg.cn/20200712123721813.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zOTYzMzk0Mw==,size_16,color_FFFFFF,t_70Hive安装...
2020-07-12 12:40:16 298
原创 MySQL应用场景
文章目录max()与group by共用时易错max()与group by共用时易错url问题:group by分组后,则返回的是第一条记录的基本信息的特性解决方法:先子查询order by,再外层用group byselect name, type, MAX(score) from (select * from order_test order by score desc) as a GROUP BY type...
2020-07-10 11:37:02 718
原创 pyspark入门
pyspark入门欢迎使用Markdown编辑器spark streaming无状态转换有状态转换sockets数据流欢迎使用Markdown编辑器你好! 这是学习pyspark的记录。spark streamingSpark Streaming利用Spark Core的快速调度能力执行流数据的分析。它以最小批次获取数据,并对批次上的数据执行RDD转化。这样的设计,可以让用于批处理分析的Spark应用程序代码也可以用于流数据分析,因此便于实时大数据处理架构的实现。但是这种便利性带来的问题是处理最小
2020-07-06 18:33:36 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人