大数据测试基础
大数据开发如火如荼,大数据测试必将崛起
飞翔的大黑壮(猫猫)
奔跑吧小白笨,飞翔吧大黑壮。
展开
-
本地环境与Hadoop的数据交互
## pip install hdfsfrom hdfs.client import Client# 覆盖数据写到hdfs文件def write_to_hdfs(client, hdfs_path, data): client.write(hdfs_path, data, overwrite=True, append=False, encoding='utf-8')#...原创 2019-08-02 17:56:36 · 2295 阅读 · 1 评论 -
从windows上传文件到linux,目录下的文件夹自动创建
#!/usr/bin/env python# coding: utf-8import paramikoimport datetimeimport oshostname = '192.168.8.75'username = 'root'password = 'root'port = 22def upload(local_dir, remote_dir): try:...原创 2019-08-02 17:16:10 · 2439 阅读 · 1 评论 -
windows上用python从linux服务器下载文件到指定路径
#!/usr/bin/env python# coding: utf-8import paramikodef remote_scp(host_ip, remote_path, local_path, username, password): t = paramiko.Transport((host_ip, 22)) t.connect(username=username...原创 2019-08-02 17:09:13 · 5654 阅读 · 4 评论 -
大数据测试:sparkSQL取MySQL数据库中的数据
# coding:utf-8from pyspark.sql import SparkSessionfrom pyspark.sql.types import *import osif __name__ == '__main__': os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211' print...原创 2019-08-02 15:55:00 · 2241 阅读 · 0 评论 -
大数据测试:利用spark将二进制文件转换为json格式
from pyspark.sql import SparkSessionimport osif __name__ == '__main__': os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211' print(os.path) spark = SparkSession \ .bui...原创 2019-07-31 14:49:41 · 4010 阅读 · 0 评论 -
大数据测试:利用spark将表中数据拆分
# coding:utf-8from pyspark.sql import SparkSessionimport osif __name__ == '__main__': os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211' print(os.path) spark = SparkSessi...原创 2019-07-31 14:48:11 · 4670 阅读 · 0 评论 -
大数据测试:利用python将两张表链接
from pyspark.sql import SparkSessionfrom pyspark.sql.types import *import osdef getUser(spark,path): struct1 = StructType([ StructField("user", StringType(), True), StructFi...原创 2019-07-31 14:42:36 · 3875 阅读 · 0 评论 -
大数据:spark基础知识
原创 2019-07-30 21:11:05 · 2733 阅读 · 1 评论 -
windows下运行spark遇到的奇葩坑:
今天配置windows下的spark运行环境,java,hadoop,spark,python环境配置一点问题都没有,但是总是显示错误,没有文件夹创建删除的权限,修改了一下午,简直要崩溃了。错误忘记截图了,只把解决办法截图了一下。原因:window下缺少了一个关于c++的文件。缺少文件:解毒方案:管理员运行cmd,D:\Users\hadoop-2.7.7\bin\winutil...原创 2019-07-30 21:05:49 · 3261 阅读 · 0 评论 -
spark分布式配置:
原创 2019-07-30 21:09:14 · 2762 阅读 · 0 评论 -
大数据笔试题:超级重要知识点
简答题:(每题5分,总分100分)Hadoop分布式集群与伪分布式集群的区别分布式集群需要多台电脑,,一台为奴隶主机,其他的为奴隶机用来存储数据。 伪分布式集群可以使用一台电脑搭建,也可以使用多台电脑,只需要在slaves中添加自己的主机名就可以了,其他的与分布式一样。Hadoop分为三个核心部分,每个部分是什么,有什么功能?三个核心:hdfs,mapreduce和yarn Had...原创 2019-07-30 08:59:40 · 10894 阅读 · 5 评论 -
大数据:hive分区,插入新字段,字段没有分区
查找资料,找到的最好的答案:问题:在hive表中增加字段后,向分区表中写入数据(包含新增字段),查询分区表数据发现新增字段值均为“NULL”!原因分析:表结构新增字段与创建分区表的顺序不同,导致查询结果不同1.创建分区在修改表结构之后(能获取新增字段值)2.创建分区在修改表结构之前(不能获取新增字段值)对于第二种情况,因为分区表在修改表结构之前已经存在,所有在修改表结构的时候,新增字段...原创 2019-07-27 08:33:22 · 4997 阅读 · 1 评论 -
大数据:Hive分区partition详解
<article class="baidu_pl"> <div id="article_content" class="article_content clearfix" data-report-view="{"mod":"popu_307","dest&qu...转载 2019-07-30 20:59:47 · 4607 阅读 · 0 评论 -
大数据基础:hive创建表,加载,分区分桶代码
原创 2019-07-23 19:58:27 · 3431 阅读 · 1 评论 -
大数据基础:hadoop分布式文件系统
原创 2019-07-19 20:26:53 · 3415 阅读 · 1 评论 -
大数据ssh免密登录遇到的奇葩坑:奴隶机重做之后ssh不上,/etc/hosts已改
一台奴隶机更改不了用户名,只好重做,重做之后还是无法ssh链接,/etc/hosts中的ip也改了。错误原因:重做之后,虽然主机名更改的和原来一样,但是ip地址却发生了改变,know_host中存储的是旧的ip地址。解决办法:将known_host中的ip记录删掉,重新ssh就可以解决。(别忘了 /etc/hosts 改ip)...原创 2019-07-19 15:02:42 · 3715 阅读 · 0 评论 -
大数据ssh免密登录遇到的奇葩坑:什么配置都对,就是连不上
错误一:我们有三台电脑,三个用户使用的是不一样的用户名,其他的配置完全没有出问题,但是ssh链接的时候只可以连自己的,链接其他用户却不可以,需要输入密码,即使输入正确的密码也不会建立链接。造成错误的原因:用户名不同,三台电脑需要使用相同的用户名进行链接解决办法:将3个用户的用户名统一成一样的用户名,就可以建立链接了这是我找到的ssh是如何实现,这里的value要与testval...原创 2019-07-19 10:21:18 · 3599 阅读 · 0 评论 -
大数据分布式基础:ssh免密登录
三个用户的免密登录:原创 2019-07-19 08:36:48 · 3521 阅读 · 1 评论 -
大数据基础:java环境搭建
centos下的环境搭建:原创 2019-07-19 08:32:47 · 3492 阅读 · 0 评论