大数据技术
江西师范大学-20届-吴悠
江西师范大学20届软件学院毕业生,大数据方向,大数据技术、机器学习、深度学习、爬虫、Django、区块链、ACM、PS修图、Pr视频剪辑、摄影都搞。爱好旅游、摄影、跑步、读书。
展开
-
MapReduce统计以某字母开头的单词的平均长度
MapReduce统计以某字母开头的单词的平均长度用MapReduce编写程序主要的就是编写Map和Reduce函数、main函数java代码如下package section1;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuratio...原创 2018-10-19 20:09:03 · 1816 阅读 · 0 评论 -
Windows安装Pyspark
参考链接:https://blog.csdn.net/zhongjunlang/article/details/80816711?tdsourcetag=s_pcqq_aiomsgspark下载地址:http://spark.apache.org/downloads.html最好是下载最新的spark,否则spark2.0以下是不支持Python3.6及其以上的下载完成后解压在Path中...原创 2019-04-23 16:54:51 · 3198 阅读 · 1 评论 -
IntelliJ安装本地Spark出现的问题
Spark http://spark.apache.org/downloads.htmlJdk http://www.oracle.com/technetwork/java/javase/archive-139210.htmlScala http://www.scala-lang.org/download/all.htmlIntellij IDEA https://www.jetbrains...原创 2019-03-27 20:28:46 · 375 阅读 · 0 评论 -
Spark影评分析
表结构求被评分次数最多的 10 部电影,并给出评分次数(电影名,评分次数)import org.apache.spark.{SparkConf, SparkContext}object test{ def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("movie rate")...原创 2019-04-01 11:15:27 · 695 阅读 · 0 评论 -
Spark中的键值对
键值对RDD由一组组的键值对组成,成为PairRDD创建键值对RDD下面的命令是将每个句子的第一个单词作为键,整个句子作为值val rdd=sc.parallelize(List("this is a test","how are you","I am fine","can you tell me"))val words=rdd.map(x=>(x.split(" ")(0),x))...原创 2019-03-26 09:53:35 · 745 阅读 · 0 评论 -
IntelliJ进行Spark编程之WordCount
项目目录如下:代码:import org.apache.spark.{SparkConf, SparkContext}object WordCount{ def main(args:Array[String]) : Unit ={ val conf=new SparkConf().setAppName("word count").setMaster("local"); ...原创 2019-03-25 09:29:48 · 331 阅读 · 0 评论 -
Spark编程
进入Spark的命令:spark-shellRDD是一个容错的、只读的、可进行并行操作的数据结构,是一个分布在集群各个节点的存放元素的集合。RDD有三种不同的创建方法,1、对程序中存放的基本数据结构中的集合进行并行化,2、通过对已有RDD转化得到新的RDD,3、直接读取外部存储的数据集。从内存中已有数据创建RDD两种常用方法:1、转化Seq集合为RDD,2、从已有的RDD转化为新的RDD...原创 2019-03-20 11:40:37 · 271 阅读 · 0 评论 -
Hadoop伪集群的安装(yum)
Hadoop伪集群的安装(yum)装机环境:CentOS所有操作必须切换到管理员,切换命令:su,之后系统会提示输入管理员密码1、主机名修改修改/etc/sysconfig/network文件中HOSTNAME=hadoop1原文件内容:修改后内容:2、IP地址配置修改/etc/sysconfig/network-scripts/ifcfg-eth0,修改后的信息如下:DE...原创 2019-03-03 23:34:27 · 209 阅读 · 0 评论 -
Linux环境安装mysql客户端报错Failed dependencies
Linux环境安装mysql客户端报错Failed dependencies安装rpm包 :mysql-community-client-5.7.13-1.el7.x86_64.rpm报错如下:/home/mysql>sudo rpm -ivh mysql-community-client-5.7.13-1.el7.x86_64.rpm[sudo] password for ****...原创 2018-12-05 09:29:06 · 877 阅读 · 0 评论 -
Java API连接Hbase时报错WARN No appenders could be found for logger
报错的内容如下:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http://logging...原创 2018-11-12 20:22:10 · 898 阅读 · 0 评论 -
java API对Hbase进行连读写创的操作
java API对Hbase进行连读写创的操作import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hba...原创 2018-11-12 19:37:26 · 337 阅读 · 0 评论 -
Hbase的基本操作(shell形式)
Hbase的基本操作1、进入和离开Hbase终端输入“hbase shell”离开输入“exit”寻求帮助输入“help”2、list:列出Hbase的所有的表的信息原创 2018-11-12 15:20:28 · 390 阅读 · 0 评论 -
关于windows本地连接Linux上的Hbase
关于windows本地连接Linux上的Hbase首先找到本地C:\Windows\System32\drivers\etc找到host文件,之后用记事本打开,在末尾添加虚拟机地址+quickstart.cloudera(本人的地址是192.168.80.xxx quickstart.cloudera)原文件内容1、如何查找虚拟机的地址ifconfiginet addr即为虚拟机上...原创 2018-11-12 15:12:56 · 1186 阅读 · 0 评论 -
hadoop安装后的新建hadoop文件夹的问题
hadoop安装后的新建hadoop文件夹的问题本人是直接拷贝老师的虚拟机在电脑上安装的hadoop,所以之前的一些安装问题并不知晓之前的安装可以查看链接https://blog.csdn.net/quintind/article/details/77861666这是安装好镜像文件的hadoop下的文件:可以明显看到是没有hadoop文件夹的,所以需要自己新建hadoop fs -mk...原创 2018-11-04 22:24:21 · 674 阅读 · 0 评论 -
大数据的前世今生
大数据的前世今生转载自某网课原创 2018-10-30 23:41:45 · 298 阅读 · 0 评论 -
hadoop和java中的数据类型的转换
hadoop和java中的数据类型的转换1、hadoop数据类型转换成Java-String类型.toString();即可2、Int类型–>IntWritable类型IntWritable i = new IntWritable();int p = 3;i.set§;3、IntWritable类型–>Int类型IntWritable s = new IntWritab...原创 2018-10-26 16:27:47 · 489 阅读 · 0 评论 -
MapReduce编程文件的合并和去重
MapReduce编程文件的合并和去重package org.apache.hadoop.io.nativeio;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;...原创 2018-10-20 10:55:19 · 3666 阅读 · 1 评论 -
SparkSQL结构化数据文件处理
需要使用SQLContext对象来调用sql()方法,Spark SQL对数据查询分为两个分支SQLContext和HiveContext,HiveContext继承了SQLContextSpark SQL提供了一个名为DataFrame的抽象编程模型,DataFrame是由SchemeRDD发展而来的创建DataFrame对象load()方法将HDFS上的格式化文件转换为DataFrame...原创 2019-04-23 23:01:08 · 619 阅读 · 0 评论