hadoop
且听风雨999
这个作者很懒,什么都没留下…
展开
-
mahout 资料 收集 集锦
Canopy Clustering(mahout实现)http://www.r66r.net/?p=3045原创 2013-11-13 22:36:49 · 1043 阅读 · 0 评论 -
NumPy学习笔记
[转]NumPy学习笔记 收集者:Keengle(http://www.kgblog.net)http://www.techwork.cn/paul/?p=530最近在学习scipy。在理解scipy之前,numpy作为scipy基本的模块之一,是不得不去理解掌握的。先总结一下numpy部分的内容吧。接下来学习scipy,最后是pylab和Matplotlib。介绍转载 2014-01-01 23:46:36 · 1254 阅读 · 0 评论 -
gbdt 资料
yahoop gbdt实现http://lccc.eecs.berkeley.edu/Slides/YeChChZh10_slides.pdf原创 2014-04-26 15:57:43 · 1135 阅读 · 0 评论 -
spark on hive
很多时候用spark处理数据,处理完后需要写回hive 数据仓库。 这时候用spark on hive 效率会高很多。rdd 处理完后, 先创建一个schemaschema = StructType([ StructField(“item_id”,StringType(), True), StructField(“feed_id”,StringType(), True), …原创 2015-10-30 10:38:02 · 3659 阅读 · 0 评论