大数据
PMP4561705
这个作者很懒,什么都没留下…
展开
-
Spark Graphx图计算之aggregateUsingIndex实操!
Spark Graphx图计算之aggregateUsingIndex实操!aggregateUsingIndex:根据相同的verticesId,进行reduceFun操作。比如(1,1.0)(1,2.0),操作后成为(1,3.0)//屏蔽日志 Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Lo原创 2016-11-17 21:54:40 · 1470 阅读 · 0 评论 -
怎么理解spark机器学习中的推荐算法ALS?
ALS号称是spark机器学习中的大杀器,能做推荐系统。但是亲们,我在网上找了一堆,要不是spark的源码,要不是纯数学公司。。。。苦闷,还有有万能的知乎ALS交替最小二乘法的协同过滤算法,其原理是什么,算法的思想是怎样的?找了好久的资料都是一大堆专业名词和公式看着比较费力,有没有大大能用比较通俗的语言描述一下ALS算法整理一下自己的理解。对转载 2016-11-21 21:01:57 · 1188 阅读 · 0 评论 -
大数据工程师、数据分析师利器:hive2.1.0新特性介绍及升级实战!
大数据工程师、数据分析师利器:hive2.1.0新特性介绍及升级实战!一、缘起 hive官网(http://hive.apache.org/)在6月20日,,发布了Hive2.1.0版本,并宣称它是新时代大数据工程师、数据分析师的利器,Apache Hive 2.1新引入了6大性能,包括:(1)LLAP。ApacheHive 2.0引入了LLAP(转载 2016-11-22 21:23:12 · 2330 阅读 · 0 评论 -
大数据学习第一弹你懂的之Hive升级到2.1安装配置全过程
一、安装Hive1、下载Hive安装包可以从 Apache 其中一个镜像站点中下载最新稳定版的 Hive, apache-hive-2.1.0-bin.tar.gz。解压安装Hive使用以下命令安装 Hive:sudo mv apache-hive-2.1.0-bin.tar.gz /optcd /optsudo tar -xzvf apache-hiv原创 2016-11-23 10:22:31 · 1315 阅读 · 0 评论 -
IPV6导致的hadoop集群WEBUI不能启动故障解决
50070和8042端口和网页都能显示,但就是8088不能,用命令寻找问题所在。dyq@ubuntu:/opt/hadoop$ netstat -an | grep 8088tcp6 0 0 127.0.0.1:8088 :::* LISTEN dyq@ubuntu:/opt/hadoop原创 2016-11-23 16:11:10 · 1630 阅读 · 0 评论 -
Hive2.1安装后运行mapreduce出错,换成hadoop2.6.4全程记录!
Hive2.1安装后运行mapreduce出错,换成hadoop2.6.4全程记录!解压hadoop2.6.4到/opt目录后。修改hadoop-env.sh# The java implementation to use.export JAVA_HOME=/usr/java/jdk修改~/.bashrc#HADOOP VARIABLES STARTex原创 2016-11-23 13:44:59 · 1757 阅读 · 0 评论 -
vmware虚拟机磁盘扩容全纪录
vmware虚拟机磁盘扩容全纪录虚拟机可以选择在原有磁盘上扩容,第二种是新增额一个磁盘,然后在Linux中挂载,本文先试验了第一种,发现无法成功,第二种成功了!如下为新增加一个SCSI硬盘,分区为扩展分区,然后格式化为ext3,挂载到/home/dyq/extend,增加到/etc/fstab系统启动时自动挂:1、在虚拟机管理软件中新增一个硬盘2、启动后进入linux,发原创 2016-11-23 21:24:03 · 3279 阅读 · 0 评论 -
java的hashtable、scala的hashtable都是线程安全的吗?
java的hashtable、scala的hashtable都是线程安全的吗?HashTable.java的源代码描述如下: * Java Collections Framework. Unlike the new collection * implementations, {@code Hashtable} is synchronized. If a * thread-s原创 2016-11-24 12:12:57 · 1696 阅读 · 0 评论 -
linux系统Give root password for maintenance解决办法
今天要跟朋友分享的是linux 系统Give root password for maintenance问题的解决方法 ,希望能帮上朋友们!问题原因应该是/usr /home /boot分区磁盘检测出了问题。Give root password for maintenance(or type Control-D to continue):输入密码后 出现了:(R转载 2016-11-24 14:31:13 · 40851 阅读 · 0 评论 -
Spark机器学习有哪些算法?
Spark机器学习有哪些算法?Algorithms 算法:MLlib contains many algorithms and utilities, including:原创 2016-11-19 12:29:53 · 5028 阅读 · 0 评论 -
scala读取xml的原始坑!“ columnNumber: 1; 前言中不允许有内容。”
scala读取xml的原始坑!“ columnNumber: 1; 前言中不允许有内容。”用spark搞机器学习,需要从XML中读取训练数据,代码是这样的val fileName = "data\\Posts.small1.xml" val textFile = sc.textFile(fileName) //移除xml的页眉和页脚 val postsXm原创 2016-11-21 20:51:06 · 6199 阅读 · 1 评论 -
Spark机器学习之第一弹你懂的踩坑记录!
Spark机器学习之踩第一个坑!A signature in package.class refers to type compileTimeOnly in package scala.annotation which is not available.错误解决/** * Created by danger on 2016/11/19. * 使用SGD算法逻辑回归的垃圾邮件原创 2016-11-19 23:08:38 · 2014 阅读 · 0 评论 -
Spark Graphx图计算之二跳邻算法实战!
Spark Graphx图计算之二跳邻算法实战! def sendMsgFunc(edge:EdgeTriplet[Int, Int]) = { if(edge.srcAttr <= 0){ if(edge.dstAttr <= 0){ // 如果双方都小于0,则不发送信息 Iterator.empty原创 2016-11-17 22:10:19 · 3389 阅读 · 0 评论 -
简练又清楚的linux的定时任务crontab从入门到精通
简练又清楚的linux的定时任务crontab从入门到精通************************************************************************************cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方转载 2016-11-30 16:47:58 · 656 阅读 · 0 评论 -
Spark的RDD操作之Join大全!
Spark的RDD操作之Join大全!一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下: /** * Return an RDD containing all pairs of elements with matching keys in `this`原创 2016-11-18 08:42:03 · 54191 阅读 · 0 评论 -
邓佑权读源码之Spark源码解密:spark shell本质!
Spark的源码解密:spark shell本质!spark-shell脚本在bin目录下:#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file原创 2016-11-15 14:28:23 · 693 阅读 · 0 评论 -
Spark Graph的outerJoinVertices操作实战!
Spark Graph的outerJoinVertices操作实战!一、outerJoinVertices是什么?图的vertices进行join操作,就要用到outerJoinVertices。 /** * Joins the vertices with entries in the `table` RDD and merges the results using `原创 2016-11-18 09:46:03 · 4684 阅读 · 0 评论 -
Spark大牛博客和网站地址一箩筐!
Spark大牛博客和网站地址一箩筐!自己整理的,方便自己使用吧。Intel @邵赛赛 的博客 http://jerryshao.me/ 他是早期Spark contributor之一盛利:Spark SQL 源码分析系列文章许鹏:徽沪一郎 - 博客园 博主的新书《Spark源码剖析》快出了吧 :-)[1]fxjwind - 博客园[2]张包峰原创 2016-11-19 16:29:35 · 1240 阅读 · 0 评论 -
Spark调优、编码之奇技淫巧!
1.正确使用转换操作,明确何时应该减少shuffle,何时应该增加shuffle。2.恰当的资源配置,资源配置不当会严重影响作业性能,哪怕你代码上无懈可击。以上是粗略的小结,具体请看Cloudera的两篇关于Spark调优的博客,How-to: Tune Your Apache Spark Jobs (Part 1)———————————————————————————转载 2016-11-19 16:57:24 · 906 阅读 · 0 评论 -
Pregel的计算模型
Pregel的计算模型 Pregel操作是一个约束到图拓扑的批量同步(bulk-synchronous)并行消息抽象。Pregel操作者执行一系列的超级步骤(super steps),在这些步骤中,顶点从 之前的超级步骤中接收进入(inbound)消息的总和,为顶点属性计算一个新的值,然后在以后的超级步骤中发送消息到邻居顶点。不像Pregel而更像GraphLab,消息作转载 2016-11-19 19:13:40 · 1440 阅读 · 0 评论 -
知乎上一位朋友总结的特别好的spark的文章,很不错以转载!
Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下:提高CPU利用率。避免OOM。降低网络开销。减少I/O操作。第1章 数据转载 2016-11-19 21:45:55 · 5801 阅读 · 0 评论 -
Eclipse编写springMVC程序遇到的
ApplicationContext.xml文件:xmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:p="http://www.springframework.org/schema/p"xmlns:cont转载 2016-12-07 16:48:33 · 955 阅读 · 0 评论