Hadoop生态
文章平均质量分 73
「已注销」
这个作者很懒,什么都没留下…
展开
-
Hadoop生态概览
Hadoop生态概览:#hadoop#HDFS两种文件格式(基于文件的数据结构):1,SequenceFile,2,MapFileSequenceFile特性:SequenceFile文件是Hadoop用来存储二进制形式的对而设计的一种平面文件(Flat File);可以把SequenceFile当作一个容器,把所有文件打包到SequenceFile类中,可以高效地对小文件进行存储和处原创 2015-08-22 01:29:27 · 491 阅读 · 0 评论 -
hadoop要点(三)
51、linux批量多机互信 解决方法:pub秘钥配成一个52、org.apache.spark.SparkException: Failed to get broadcast_790_piece0 of broadcast_790解决方法:去除spark-defaults.conf中spark.cleaner.ttl配置53、Yarn HA环境下,通过web访问history原创 2016-09-26 11:42:54 · 377 阅读 · 0 评论 -
hadoop要点(二)
踩坑集锦原创 2016-05-20 14:32:05 · 3626 阅读 · 4 评论 -
spark集群搭建(标准版)
搭建hadoop2.6-yarn-spark1.6大数据集群详细步骤(三个节点,每个节点都要执行一遍):配置/etc/hosts(覆盖原来的配置):192.168.3.61 namenode1192.168.3.62 datanode2192.168.3.63 datanode3由于机器数量有限,这里把datanode和namenode放在同一个节点,实际生产环境中建议原创 2016-08-01 18:10:06 · 261 阅读 · 0 评论 -
kafka0.9-spark1.6-ElasticSearch2.1集成
kafka0.9-spark1.6-ElasticSearch2.1集成:工程目的:将kafka读入的数据流,经过spark streaming数据分析,最后写入ESeclipse卡顿:内存不足所以会卡死,修改一下eclipse.ini-XX:MaxPermSize=768m-Xms1024m-Xmx3072m使用maven-assembly,在pom.原创 2016-05-26 09:23:59 · 415 阅读 · 0 评论 -
搭建hadoop2.6-yarn-spark1.6大数据集群详细步骤
搭建hadoop2.6-yarn-spark1.6大数据集群详细步骤(三个节点,每个节点都要执行一遍):配置/etc/hosts:192.168.3.61 namenode1192.168.3.62 datanode2192.168.3.63 datanode3由于机器数量有限,这里把datanode和secendarynamenode都放在datanode2,实际生产原创 2016-04-18 11:46:42 · 933 阅读 · 0 评论 -
Spark要点
Spark要点:内存计算,DAG;RDD:Resilient Distributed Dataset 弹性分布式数据集RDD可以基于工作集应用RDD特征:有很多partition(数据分片),并行度从上一个RDD继承;每个split(数据分片)对应一个函数function(),函数处理就是以任务方式运行;RDD依赖一组其他的RDD;对于key-value RDD,它的Part原创 2016-04-10 23:54:35 · 316 阅读 · 0 评论 -
HIVE的MAP/REDUCE原理
原创 2016-01-27 15:19:58 · 494 阅读 · 0 评论 -
hadoop要点(一)
hadoop要点(一):YARN支持多种计算模型(hadoop离线,storm实时,spark内存计算),支持数据共享;hadoop部署方式:本地,伪分布,集群模式hadoop1.0块文件默认64M,hadoop2.0块文件大小默认128M;配置ssh免密码登录:处于同一网段的ip才能通信,cd .ssh/ , ls , ssh-keygen -t rsa 生成i原创 2015-09-13 00:04:09 · 326 阅读 · 0 评论 -
Induction to Hadoop
induction to hadoop:Yarn:管理多个不同的集群,提升资源利用率;HIVE:能将HQL转化为map-reduce作业;Mahout:提供了数据挖掘库,包含丰富的大数据相关算法;HBase:Table,Column Family,Row key:主键,Timestamp:时间戳(版本号);Zookeeper:解决分布式环境下数据管理问题(统一命名,状态同步,集原创 2015-08-14 01:24:48 · 346 阅读 · 0 评论 -
hadoop要点(四)
101、经验:kafka的comsumer groupID对于spark direct streaming无效102、启动hadoop yarn,发现只启动了ResourceManager,没有启动NodeManager解决方法:yarn-site.xml配置有问题,检查并规范各项配置103、如何查看hadoop系统日志 解决方法:Hadoop 2.x中YARN系统的服务日志包原创 2016-12-30 15:13:15 · 601 阅读 · 0 评论