自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 HDFS常用命令总结

在HDFS中所有的Hadoop命令均由bin/hadoop脚本引出,不指定参数运行Hadoop脚本会打印出所有命令的描述。这篇博文总结一下常用的HDFS命令的操作。一、version命令version命令可以打印Hadoop版本的详细信息。$ hadoop version二、dfsadmin命令dfsadmin命令可以查看集群存储空间使用情况和各节点存储空间使用情况。# hadoop dfsadmin -report三、jar命令jar命令是运行jar包文件命令。用户

2021-04-20 11:33:49 1981

原创 数据库优化之索引的使用与失效

索引是数据库优化最有效的方式在之一。注意避免索引失效,主要有以下几点:全值匹配:对索引中所有列都指定具体值 最左前缀法则:索引了多列,查询从最左前列开始,且不跳过索引中的列,顺序可变换。缺少左侧列时,右侧索引自动失效,这点可以从EXPLAIN中的key_len看出 范围查询右边的列,不能使用索引 不要在索引列上进行运算操作,否则索引失效 对于VACHAR类型的列,字符串不加单引号,索引失效 尽量使用覆盖索引(查询的列都在索引中),避免使用SELECT * 用OR分割开的条件:若OR前面的条件

2021-04-10 13:08:17 135

原创 Hadoop框架简述

Hadoop2.0的核心包括分布式文件管理系统(HDFS)、资源管理和调度框架YARN和分布式计算框架MapReduce.HDFS是一个具有高容错性的文件系统,适合部署在廉价的机器上,并且能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用。MapReduce、Spark等大数据 处理框架要处理的数据源大部分都存储再HDFS上,Hive、HBase等框架的数据通常也存储在HDFS上。简而言之,HDFS为大数据存储提供了保障。 YARN解决了Hadoop1.0资源利用率低和不能兼容异构计算框架等多.

2021-04-09 21:53:30 994

转载 Python绘制传统相关性矩阵/下三角相关性矩阵/重点相关性矩阵

数据科学最重要的技能之一就是数据可视化,在数据建模过程中,我们比较关心数据之间的相关性,而观察数据相关性我们使用最多的技能之一就是相关性矩阵。数据相关性矩阵可以让我们对数据之间的关联关系有更为直观的理解。这里简单汇总一下使用Python绘制传统相关性矩阵/下三角相关性矩阵/重点相关性矩阵的代码1.传统相关性矩阵import pandas as pdimport seaborn as snsimport matplotlib.pyp...

2021-04-07 18:39:15 7213 2

原创 Python中list/array/DataFrame相互转换

# 导入程序包import numpy as npimport pandas as pdlist转arraya = np.array(a)array转DataFramea = pd.DataFrame(a)DataFrame转arraya = a.valuesarray转lista = a.tolist()DataFrame转lista = a.values.tolist()

2021-04-03 10:19:28 215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除