自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 【报错】: distutils.errors.DistutilsPlatformError: Microsoft Visual C++ 14.0 or greater is required.

这是在win上使用python库比较常遇见的问题,也是比较很容易解决的问题,缺少Microsoft Visual C++ 14.0环境。pip安装cffi库时setup.py抛出error:subprocess-exited-with-error。方法三:直接点击对应版本的下载whl库到本地,然后本地安装即可。缺点是VS太大,办公环境还需要License。加州大学的网站贡献了很多需要编译好的安装库。

2024-05-09 20:19:41 723

原创 00 操作系统资料/学习线路

操作系统相关学习资料

2023-12-14 09:46:20 467 1

原创 MySQL中文乱码问题解决

另外,还需要确保数据库、表和字段都使用了正确的字符集编码。注意,修改配置文件之前,建议先备份原始配置文件以防意外情况。修改完成后,重新启动MySQL服务使配置生效。如果您在使用MySQL时遇到了中文乱码问题,可以尝试在MySQL的配置文件中进行相应的设置。这些配置将MySQL的字符集编码设置为。(Linux/Unix)或。,支持存储和显示中文字符。

2023-12-13 18:13:50 227 1

原创 linux 常用基础指令

【代码】linux 常用基础指令。

2023-12-09 22:09:49 32 1

原创 hive 调优

1.hive数据压缩压缩对比开启map端的压缩2.hive数据存储行列存储原理存储压缩比拓展dfs -du -h3. fetch抓取4. local本地模式(默认关闭)5. join的优化操作6. SQL优化之列裁剪7. SQL优化之分区裁剪8. SQL优化之group by 操作9. SQL优化之count(distinct)10. SQL优化之笛卡尔积11. 动态分区12.MapReduce并行度调整(调整map和reduce的数量)13.并行执行(默认关闭)

2023-11-18 16:17:56 229 1

原创 06 分区表和分桶表

当Hive表对应HDFS中数据量大、文件多时,为了避免查询时全表扫描数据,Hive支持根据用户指定的字段进行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段。比如把一整年的数据根据月份划分12个月(12个分区),后续就可以查询指定月份分区的数据,尽可能避免了全表扫描查询。现在需要将表A的月分区 202309 中user_id为20000的user_dinner字段更新为bonc8920 ,其他用户user_dinner字段数据不变 ,请列出更新的方法步骤。是一种用于优化查询而设计的表类型。

2023-11-16 16:43:57 67 1

原创 05 hive 内部表与外部表

外部表无法使用truncate语句清空列表,drop只能删除元数据,HDFS中仍可访问文件,可使用location重新对原地址数据进行关联。四是删除的区别:外部表无法使用truncate语句清空表内数据,只能使用drop删除表元数据,而内部表使用drop会删除元数据与业务数据。注意: 删除内部表效果是mysql中表相关元数据被删除,同时存储在hdfs中的业务数据本身也被删除。一是管理范围的区别:内部表对元数据和表数据有绝对管理权,外部表只对元数据有管理权,字段名 字段类型 , …

2023-11-15 22:23:53 39 1

原创 04 hive基础操作

create [external] table [if not exists] 表名(字段名 字段类型 , 字段名 字段类型 , ... )[partitioned by (分区字段名 分区字段类型)] # 分区表固定格式[clustered by (分桶字段名) into 桶个数 buckets] # 分桶表固定格式 注意: 可以排序[sorted by (排序字段名 asc|desc)]

2023-11-14 10:37:20 64

原创 03 hdfs 文件操作(导入/导出)

目录的绝对路径创建目录: hdfs dfs -mkdir 目录的绝对路径创建文件: hdfs dfs -touch 文件的绝对路径移动目录/文件: hdfs dfs -mv 要移动的目录或者文件的绝对路径 目标位置绝对路径复制目录/文件: hdfs dfs -cp 要复制的目录或者文件的绝对路径 目标位置绝对路径删除目录/文件: hdfs dfs -rm [-r] 要删除的目录或者文件的绝对路径。

2023-11-14 09:27:52 700

原创 02 hive 启动

在profile文件末尾添加(小技巧G+o快速定位到最后)注意:配置前最好拍快照。

2023-11-12 12:04:23 38 1

原创 01 hadoop 概念

hadoop是什么hadoop是一个由Apache基金会所开发的分布式系统基础框架,可以部署在大规模集群的集分布式数据存储、分布式数据计算、分布式资源调度为一体的整体解决方案。hadoop的起源起源Doug Cutting开创的一个解决存储数据困难,检索速度慢的Nutch项目。Google在大数据方面的三篇论文加速了hadoop项目的发展:《The Google file system》谷歌分布式文件系统GFS-> HDFS。

2023-11-11 22:33:46 52 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除