- 博客(3)
- 资源 (14)
- 收藏
- 关注
原创 写hive sql和shell脚本时遇到几个蛋疼的问题!
错误一: Hive的where中不能用别名, 错误二: hive的groupby中不能用自定义函数,否则报错(用嵌套select代替) 错误三: 执行:$ ./hive_game_operationstatis5.sh 报错信息如下: ./hive_game_operationstatis5.sh:line 11: [: missing `]' ./hive_ga
2014-10-14 19:05:57 2795
原创 hive中的排序
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 Sql代码 set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; o
2014-10-10 14:40:10 749
原创 Mahout初步认识
Apache Mahout项目主要包括以下五个部分: 频繁模式挖掘:挖掘数据中频繁出现的项集。 聚类:将诸如文本、文档之类的数据分成局部相关的组。 分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。 推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事务。 频繁子项挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。 在Maho
2014-10-05 22:54:18 1470
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人