自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

周大科的博客

大数据搬砖工

  • 博客(6)
  • 收藏
  • 关注

原创 Spark ML Pipelines实例

趁着放假的前的空闲时光,写了几遍吧,这里主要是写一个ML里面的实例,这个是我从一个国外网站上看到的,以前的算法都是用的mlib,现在开始用ML来做。其实开始我对ML和mlib区别比较模糊,后来多看了几遍官网自己就熟悉了。没事就溜达一下官网吧,个人觉得官网是几个开源中最好的一个,api介绍也很丰富。准备数据用户的浏览网址数据Cookie          | Site        

2015-09-30 10:35:54 714

原创 spark--DataFrame处理udf操作和一些聚合操作

在spark中对数据进行处理udf函数还是很多的下面介绍在df下udf操作实例 val sqlContext = new SQLContext(sc) import sqlContext.implicits._调用sqlcontext里面的udf函数 sqlContext.udf.register("str",(_:String).length) sqlContext.s

2015-09-29 17:27:31 8319

原创 spark--案例分享--性别预测

spark里面有很多分类算法逻辑回归(linear models (SVMs, logistic regression, linear regression)naive Bayes decision trees等这里我采用ML来做里面的分类算法 支持LR ,决策树、还有NaiveBayesModel等获取训练数据,(已知性别的数据在hive里面,所以从中获取数据)表我就一table代替

2015-09-28 15:44:38 3300

原创 spark高级文本处理技术--spark-Machine Learning With Spark

数据下载地址http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.data.html.20news-bydate.tar.gz解压这个文件里面有很多文件夹加载数据 val path="/zhouxiaoke/20news-bydate-train/*" val rdd =sc.wholeTextFil

2015-09-28 11:32:12 700

原创 spark文本处理-文章分类

这里我采用的还spark来做数据处理以及采用的是spark里面的算法spark里面提供了词频-逆文本频率(TF-IDF)它给一个文本的每一个词赋予了一个权值,权值的计算是基于文本中出现的频率,同时采用逆向文本频率做全局归一化。具体的算法推断大家可以去看官网介绍。分类采用NaiveBayes来做我们来看一段数据(需要数据、代码的可以给我留言)Four score and se

2015-09-28 11:18:40 1819 6

原创 大数据---spark系列--DateFrame

做了几年的大数据开发,现在有了写博客的想法。目前对spark的研究是最多的,来个开篇作吧。自从spark1.3开始有了Dataframe后,自此数据分析的领域有多了一个神器。开始的时候我也好奇它是什么东东。于此我们先从案例看起--很多时候我们是看官方案例开始的给个链接吧 http://spark.apache.org/docs/latest/sql-programming-gu

2015-09-25 10:42:39 987

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除