数据分析(hadoop,hive,Linux)常用操作

1、远程Linux机器登录

ssh username@地址 enter 密码
或者使用securitycrt软件

2、HDFS常用命令

hadoop fs -ls /user/fangmt 查看文件路径
hadoop fs -cat /user/fangmt/filename.txt | more 查看文件的内容
hadoop fs –text /user/fangmt/*.gz | more 查看被压缩的文件的内容
hadoop fs -du -h /user/fangmt 查看目录下各个文件大小

hadoop fs -put input1.txt当前路径文件 /tmp/input(上传路径) 从服务器本地上传文件至hdfs
将本地的”当前路径”下的input1.txt上传到当前机器所在的hadoop的云存储环境的/tmp/input中
Hadoop fs -put filename hdfs

hadoop fs -help ls 可以参看hdfs上的大部分命令,此处为查看 ls 命令的功能

3、hdfs dfs -du -h 输出三列数据的含义

命令 hdfs dfs -du -h /data/
结果 102.3 M 307.0 M /data/
–第一列表示该目录下总文件大小
–第二列表示该目录下所有文件在集群上的总存储大小,和你的副本数相关,我的副本数是3 ,所以第二列的是第一列的三倍 (第二列内容=文件大小*副本数)
–第三列表示你查询的目录

4、HIVE命令

hive详解:

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,您的问题是如何使用R语言进行数据爬取,生成csv文件,将数据上传Linux,并使用HadoopHive进行数据分析。 首先,我们可以使用R语言中的一些库(如`rvest`、`httr`等)来进行数据爬取,然后将数据处理并保存为csv文件。下面是一个简单的示例代码: ``` library(rvest) library(httr) # 发送请求获取网页内容 url <- "https://www.example.com" response <- GET(url) content <- content(response, as = "text") # 使用rvest库解析网页内容并提取数据 html <- read_html(content) data <- html %>% html_nodes("table") %>% html_table(fill = TRUE) # 将数据保存为csv文件 write.csv(data, file = "data.csv", row.names = FALSE) ``` 接着,我们可以使用`scp`命令将生成的csv文件上传到Linux服务器上。假设您的csv文件保存在本地的`/path/to/data.csv`,Linux服务器的IP地址是`123.45.67.89`,用户名是`user`,则可以使用以下命令上传文件: ``` scp /path/to/data.csv [email protected]:/path/to/remote/folder/ ``` 一旦文件上传到Linux服务器上,我们可以使用HadoopHive进行数据分析。首先,我们需要将csv文件加载到Hadoop文件系统中。可以使用以下命令将文件复制到Hadoop文件系统中: ``` hdfs dfs -copyFromLocal /path/to/remote/folder/data.csv /input/ ``` 然后,我们可以使用Hive来创建表并加载数据。假设您的csv文件中有两列数据`col1`和`col2`,则可以使用以下命令在Hive中创建表: ``` CREATE TABLE my_table ( col1 STRING, col2 STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; ``` 接着,我们可以使用以下命令将csv文件中的数据加载到Hive表中: ``` LOAD DATA INPATH '/input/data.csv' INTO TABLE my_table; ``` 现在,我们可以使用Hive来执行各种查询和分析操作。例如,要计算`col1`中每个值的出现次数,可以使用以下查询: ``` SELECT col1, COUNT(*) as count FROM my_table GROUP BY col1; ``` 希望这些示例代码和命令可以帮助您开始使用R语言进行数据爬取和使用HadoopHive进行数据分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值