大数据
free97zl
这个作者很懒,什么都没留下…
展开
-
PySpark统计字母出现次数的平均值,及利用IPython (Jupyter) Notebook统计datas.csv数据
spark: 步骤: 1.start-dfs.sh 2.pyspark 3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('d',9),('c',7),('d',6)] 4.求出每个字母后面数字出现的平均值原创 2017-12-23 16:02:14 · 4691 阅读 · 0 评论 -
CDH环境搭建遇到问题
问题描述:启动agent时失败,检查日志文件,发现如下 /opt/cloudera-manager/cm-5.3.8/lib64/cmf/agent/build/env/bin/python: error while loading shared libraries: libpython2.4.so.1.0: cannot open shared object file: No such f...原创 2018-07-11 16:02:42 · 919 阅读 · 0 评论 -
Kafka篇
Kafka介绍 百度介绍 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可>以处理消费者规模的网站中的所有动作流数据。自我理解 kafka 消息中间件 mq 消息队列:一种应用程序对应用程序的通信方法。核心思想 publish&subscribe(发行和订阅:即生产消费者模式)重...原创 2018-03-26 17:26:36 · 251 阅读 · 0 评论 -
flume篇
flume介绍 日志数据收集器flume使用步骤 定义source,channel(通道),sink(转存的位置) 启动agent 如果有数据,就已经开始接受转存了 flume运行机理flume type介绍 source type Avro, Exec, Jms, Spooling directory, Ne...原创 2018-02-27 16:34:19 · 215 阅读 · 0 评论 -
Spark简介及其生态圈及Spark-core运行机理
hdfs:hadoop分布式系统 spark主要使用了hadoop中hdfs1 spark 用什么语言实现的? Spark使用Scala语言进行实现,Scala 建立在JAVA之上 scala:是一个多范式编程语言,学习难度大于Java、python.语法灵活简单 pyspark:使用python语言进行实现。python的函数库非常丰富,后期便于学习ML(机器学习)。2.原创 2017-12-23 15:14:10 · 403 阅读 · 0 评论 -
简述大数据
大数据:学术解释:满足以下四个特征的数据: Volume(大量) Velocity(高速) Variety(多样) Veracity(价值)自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE相应的实现技术:HDFS、MapReduce HDFS:解决大文件如何存储?如何快速的读写?如何容错原创 2017-12-15 19:35:44 · 615 阅读 · 0 评论 -
使用scala,python完成统计数据demo
环境变量修改为: export JAVA_HOME=/home/hadoop/opt/jdk1.8.0_152export PATH=PATH:PATH:JAVA_HOME/binexport HADOOP_HOME=/home/hadoop/opt/hadoop-2.9.0export HADOOP_CONF_DIR=/home/hadoop/opt/hadoop-2.9.0/etc/hadoo原创 2017-12-16 15:17:28 · 549 阅读 · 0 评论 -
CentOs7搭建hadoop集群(伪分布式)上
运行环境:CentOs7 所需工具:VMWare12,XShell(连接虚拟机),XFtp(文件传输) 所需Jar包:jdk-9.0.1_linux-x64_bin.tar.gz,hadoop-2.9.0.tar.gz,spark-2.2.1-bin-hadoop2.7.tgz 略过CentOs7安装,注意!虚拟机ip需要和VMnet8处在同一网关,网络建议为:NAT连接 ———将以上工作完原创 2017-12-15 20:00:31 · 447 阅读 · 1 评论 -
CentOs7搭建hadoop集群(伪分布式)下
在yarn-site.xml新增 ` <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> ` 开启服务:`start-yarn原创 2017-12-15 20:13:04 · 319 阅读 · 0 评论 -
Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、SparkSQL
spark中起到driver和worker之间的桥梁的是?SparkContext sc 组织rdd之间依赖关系划分stage的是 DAGSchedule 管理taskSet的是? TaskSchedule 说出rdd中多台机上(worker)上执行的懒算子(变换) map flatMap join(两个rdd数据加一起) groupByKey redu...原创 2017-12-23 16:15:53 · 623 阅读 · 0 评论