![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
faaarii
努力变优秀
展开
-
idea远程连接hadoop的插件
话不多说 ok!原创 2021-01-26 20:44:10 · 440 阅读 · 1 评论 -
spark初步学习遇到问题及注意事项
基础知识:spark是基于内存的大数据框架,紧密集成、 时效高、可迭代。spark是Scala写的,运行在JVM上。所以搭建spark环境需要安装jdk(1.7以上)、Scala、spark,hadoop环境不是必须的下载的网址可以百度到,不再赘述。但是注意版本问题:(我的)spark-2.4----- scala-2.12查看是否安装好下载解压后需要配置环境变量vi /etc/profileexport JAVA_HOME=/home/jdk1.8export HAD.原创 2021-01-18 18:35:13 · 300 阅读 · 0 评论 -
大数据实训05--网站离线日志分析实战
用户行为分析是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题, 并为进一步修正或重新制定网络营销策略提供依据。这是狭义的只指网络上的用户行为分析。重点分析的数据: 用户的来源地区、来路域名和页面; 用户在网站的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数; 注册用户和非注册用户,分析两者之间的浏览习惯; 用户所使用的搜索引擎、关键词、关联关键词和站内关键字; 用户选.原创 2020-06-26 10:57:53 · 1184 阅读 · 0 评论 -
大数据实训02--MapReduce原理与开发
思考小问题统计一个100G大小的文件进行词频的解决方法方法一:如果小文件可以编写一个小程序方法二:方法三:方法四:MapReduce特点:易于编程(有两个接口ma--大任务分成小任务,任务分解,reduce---任务汇总),良好的扩展,高容错性,适合离线处理是一个编程框架:只需要程序员去设计map,reduce函数MapReduce原语:输入、输出map处理生成key(中间结果)先map处理结果作为reduce的输入(线性关系),map的输入的是大数据集的分片sp原创 2020-06-19 12:29:02 · 721 阅读 · 0 评论 -
大数据实训01--Hadoop生态基本介绍
Hadoop官网知识前提分布式存储,分布式技术原创 2020-06-16 12:09:40 · 617 阅读 · 0 评论 -
大数据实训00--Linux基本命令
ps:自己复习使用,上课记得,零零星星有些乱。常用的命令总结:基本的命令和网络有关的命令进入网络配置文件,查看一些信息,配置网关信息,这边只有一个网关eth0查看网络状态 netstat 参数-t (tcp),-u(UDP),-l(listen监听),-r(route路由器),-n(显示ip和端口),-p(pid)另一种查看方式ss -nalp (参数含义a:所有, 正在监听的所有服务显示ip端口和pid)服务的查看状态,启动,关闭Windows可以窗口+R输入ser..原创 2020-06-16 11:11:37 · 312 阅读 · 0 评论 -
大数据实训04--Sqoop应用
sqoopSqoop是一款开源的工具,主要用于 在Hadoop(Hive)与传统的数据库 (mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例 如 : MySQL ,Oracle ,Postgres等) 中的数据导进到Hadoop的HDFS中, 也可以将HDFS的数据导进到关系型数据库中。数据库<---->文件系统 主要用于进行数据转移用sqoop来查看mysql的数据库和表sqooplist-databases--connect...原创 2020-06-25 10:34:22 · 409 阅读 · 0 评论 -
大数据实训03---Hive数据仓库
数据库数据仓库Hive运行机制原创 2020-06-23 15:41:36 · 1479 阅读 · 0 评论