大数据
飞翔的大黑壮(猫猫)
奔跑吧小白笨,飞翔吧大黑壮。
展开
-
Liunx:ubantu常用快捷键
目录常用快捷键1.Tab2.ctrl+c3.ctrl+d4.ctrl+s5.ctrl+a/e6.ctrl+k7.Shift+PgDn/Pgup常用快捷键1.Tab点击一次,补全输入的文件,命令,目录;但是,假如输入的文件名存在多个与之匹配的文件名,那么不会出现补全文件名这种情况,这时再点击1次,就会出现所有的与之匹配的参数,命令或者文件目录等。...原创 2019-05-27 19:59:24 · 2140 阅读 · 0 评论 -
spark分布式配置:
原创 2019-07-30 21:09:14 · 2756 阅读 · 0 评论 -
本地环境与Hadoop的数据交互
## pip install hdfsfrom hdfs.client import Client# 覆盖数据写到hdfs文件def write_to_hdfs(client, hdfs_path, data): client.write(hdfs_path, data, overwrite=True, append=False, encoding='utf-8')#...原创 2019-08-02 17:56:36 · 2285 阅读 · 1 评论 -
大数据:Hive分区partition详解
<article class="baidu_pl"> <div id="article_content" class="article_content clearfix" data-report-view="{"mod":"popu_307","dest&qu...转载 2019-07-30 20:59:47 · 4590 阅读 · 0 评论 -
windows下运行spark遇到的奇葩坑:
今天配置windows下的spark运行环境,java,hadoop,spark,python环境配置一点问题都没有,但是总是显示错误,没有文件夹创建删除的权限,修改了一下午,简直要崩溃了。错误忘记截图了,只把解决办法截图了一下。原因:window下缺少了一个关于c++的文件。缺少文件:解毒方案:管理员运行cmd,D:\Users\hadoop-2.7.7\bin\winutil...原创 2019-07-30 21:05:49 · 3248 阅读 · 0 评论 -
大数据:spark基础知识
原创 2019-07-30 21:11:05 · 2727 阅读 · 1 评论 -
大数据测试:利用spark将二进制文件转换为json格式
from pyspark.sql import SparkSessionimport osif __name__ == '__main__': os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211' print(os.path) spark = SparkSession \ .bui...原创 2019-07-31 14:49:41 · 3996 阅读 · 0 评论 -
大数据小总结:hive的配置以及其他
原创 2019-07-22 20:00:15 · 3332 阅读 · 1 评论 -
大数据工具:ETL的使用心得
心得一:记录集链接之前需要排序左外链接,右外连接,内连接使用前链接之前需要对链接的键进行排序,不排序将会在得到的数据里产生空值。...原创 2019-07-26 21:54:38 · 5289 阅读 · 1 评论 -
大数据:hive新增字段之后
问题:在hive表中增加字段后,向分区表中写入数据(包含新增字段),查询分区表数据发现新增字段值均为“NULL”!原因分析:表结构新增字段与创建分区表的顺序不同,导致查询结果不同1.创建分区在修改表结构之后(能获取新增字段值)2.创建分区在修改表结构之前(不能获取新增字段值)对于第二种情况,因为分区表在修改表结构之前已经存在,所有在修改表结构的时候,新增字段并没有被加到分区表中。而第一种...原创 2019-07-26 22:22:27 · 6892 阅读 · 0 评论 -
从windows上传文件到linux,目录下的文件夹自动创建
#!/usr/bin/env python# coding: utf-8import paramikoimport datetimeimport oshostname = '192.168.8.75'username = 'root'password = 'root'port = 22def upload(local_dir, remote_dir): try:...原创 2019-08-02 17:16:10 · 2429 阅读 · 1 评论 -
大数据测试:sparkSQL取MySQL数据库中的数据
# coding:utf-8from pyspark.sql import SparkSessionfrom pyspark.sql.types import *import osif __name__ == '__main__': os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211' print...原创 2019-08-02 15:55:00 · 2235 阅读 · 0 评论 -
大数据笔试题:超级重要知识点
简答题:(每题5分,总分100分)Hadoop分布式集群与伪分布式集群的区别分布式集群需要多台电脑,,一台为奴隶主机,其他的为奴隶机用来存储数据。 伪分布式集群可以使用一台电脑搭建,也可以使用多台电脑,只需要在slaves中添加自己的主机名就可以了,其他的与分布式一样。Hadoop分为三个核心部分,每个部分是什么,有什么功能?三个核心:hdfs,mapreduce和yarn Had...原创 2019-07-30 08:59:40 · 10859 阅读 · 5 评论 -
大数据基础:Linux的常用命令
常用命令如图:原创 2019-07-18 08:27:10 · 3471 阅读 · 3 评论 -
大数据基础:centos搭建
能够链接外网的环境搭建。原创 2019-07-18 08:30:24 · 3592 阅读 · 1 评论 -
大数据分布式基础:ssh免密登录
三个用户的免密登录:原创 2019-07-19 08:36:48 · 3511 阅读 · 1 评论 -
大数据基础:hive创建表,加载,分区分桶代码
原创 2019-07-23 19:58:27 · 3426 阅读 · 1 评论 -
大数据ssh免密登录遇到的奇葩坑:什么配置都对,就是连不上
错误一:我们有三台电脑,三个用户使用的是不一样的用户名,其他的配置完全没有出问题,但是ssh链接的时候只可以连自己的,链接其他用户却不可以,需要输入密码,即使输入正确的密码也不会建立链接。造成错误的原因:用户名不同,三台电脑需要使用相同的用户名进行链接解决办法:将3个用户的用户名统一成一样的用户名,就可以建立链接了这是我找到的ssh是如何实现,这里的value要与testval...原创 2019-07-19 10:21:18 · 3589 阅读 · 0 评论 -
大数据ssh免密登录遇到的奇葩坑:奴隶机重做之后ssh不上,/etc/hosts已改
一台奴隶机更改不了用户名,只好重做,重做之后还是无法ssh链接,/etc/hosts中的ip也改了。错误原因:重做之后,虽然主机名更改的和原来一样,但是ip地址却发生了改变,know_host中存储的是旧的ip地址。解决办法:将known_host中的ip记录删掉,重新ssh就可以解决。(别忘了 /etc/hosts 改ip)...原创 2019-07-19 15:02:42 · 3704 阅读 · 0 评论 -
大数据基础:hadoop分布式文件系统
原创 2019-07-19 20:26:53 · 3405 阅读 · 1 评论 -
大数据:hive分区,插入新字段,字段没有分区
查找资料,找到的最好的答案:问题:在hive表中增加字段后,向分区表中写入数据(包含新增字段),查询分区表数据发现新增字段值均为“NULL”!原因分析:表结构新增字段与创建分区表的顺序不同,导致查询结果不同1.创建分区在修改表结构之后(能获取新增字段值)2.创建分区在修改表结构之前(不能获取新增字段值)对于第二种情况,因为分区表在修改表结构之前已经存在,所有在修改表结构的时候,新增字段...原创 2019-07-27 08:33:22 · 4977 阅读 · 1 评论