2015年03月_一流小风一

原创 spark：Idea编译程序打jar包部署到spark运行方法--19

感觉没个老师带着学spark真是举步维艰啊···一个问题能卡了2天才解决···写一下这俩天的收获吧···//////////////////////////打包1.Project Structure2.Artifacts --- +jar --- From module with··· --- main class --- ok3.class paths 要填？？/usr/local/s

2015-03-30 23:51:23 2455

原创 spark：机器硬件的问题--18

现在有个问题不能解决，我在linux虚拟机下部署IDEA 编译同时要启动hadoop和spark 但是卡的什么都动不了···要是IDEA编译放在win7上又无法实时的交互数据···是不是只能在win7上编译，然后把jar包导入虚拟机···

2015-03-28 22:37:14 379

原创 spark：协同过滤--17

数据挖掘算法：简单的商品推荐开始以为跟着例子自己写一遍能有助于了解scala的语法···结果全写完发现好多地方没看懂···（在高负荷的运行下独立显卡还给烧了，还好是双显卡还剩个集成显卡，这就是老天给的启示：这台电脑以后告别游戏了)···教程看了一遍了···基本框架以及运行部署也差不多了···接下来该自己动手练习编程了···package akriaimport java.io.File

2015-03-26 21:03:24 610

原创 spark：第一次接触聚类分析Kmeans算法--16

机械语言 kmeans算法package akriaimport org.apache.log4j.{Logger, Level}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.{SparkConte

2015-03-24 21:06:55 1072

原创 spark：仿写sparkstreaming例子--15

今天学习了一些比较简单的sparkstreaming原理和事例，终于明白spark为什么是实时的处理数据···1.HdfsWordcount 对机器上/datatnt/text/文件夹实时监听。package sprakstreaming/** * Created by sendoh on 2015/3/23. */import org.apache.spark.SparkC

2015-03-23 19:12:12 655

原创 spark：配置Idea开发环境--14

今天晚上解决了一下intelic IDEA的使用及配置问题首先是安装，我是在win7上安装···IntelliJ IDEA 13.1.4 Community Editionapache-maven-3.2.3-bin.zip搭建Spark源码阅读环境：在使用IntelliJ IDEA之前，需要安装scala的插件。点击Configure 然后点击Plugins，：点击B

2015-03-20 22:17:23 672

原创 spark：在spark-shell上用260M的数据包做简单的sparkSQL练习--13

今天用一个260M的数据包做了简单的sparksql练习scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@2d5385c6scala> val wikiDat

2015-03-19 14:54:05 1543

原创 spark：在spark-shell上运行一些sparkSQL简单语句--12

sparkSQL--简单语句scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@7a0f926cscala> import sqlContext._impor

2015-03-18 22:45:45 5628

原创 spark：学习过程中遇到的一些问题及解决方法（如何将本地文件发布到HDFS）--11

./spark-shell --master spark://192.168.30.129:7077 -executor -memory 512mhttp://localhost:4040/jobs/hadoop fs -put week2.tar.gz/usr/txtdata/week2.tar.gz~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

2015-03-14 10:18:23 1259

原创 spark的安装部署--10（源码编译安装hadoop+spark+解决64位系统本地库问题）

Centos7hadoop-2.4.0-src.tar.gzjdk-7u67-linux-x64.tar.gz scala-2.10.4.tgzspark-1.2.0-bin-hadoop2.4.tgzSpark的开发环境，本文选择Windows7平台，IDE选择IntelliJ IDEA。在Windows中，需要安装以下软件：IntelliJ IDEA 13.1

2015-03-11 21:46:53 821

花满楼