- 博客(11)
- 收藏
- 关注
原创 解决Tomcat服务器访问链接数过大的问题
[Author]: kwu (和讯大数据)解决Tomcat服务器访问链接数过大的问题,tomcat作为常用的web服务容器,它的优化非常重要。
2015-08-31 18:05:04 2880
原创 基于spark1.4.1的sparkR的实例操作
[Author]: kwu ---基于spark1.4.1的sparkR的实例操作,sparkR的操作基本语法与R一致,其中添加了rJava、rhdfs、SparkR的依赖库的支持。
2015-08-30 15:14:18 2222 7
原创 sparkR集群启动脚本的封装
[Author]: kwu ---sparkR默认是以单机方式运行的。实现sparkR的集群启动,需要指定master地址,占用内存、CPU,及UI端口等,这对分析人员来说是比较麻烦的。如何实现对其启动的封装,方便分析人员来使用:
2015-08-29 22:18:08 2256
原创 基于CDH5.4的Spark1.4.1下SparkR的部署
[Author]: kwu --- 基于CDH5.4的Spark1.4.1下SparkR的部署,R与Spark的结合为数据分析提供高效的解决方案,Hadoop的中hdfs为数据分析提供分布式存储。本文介绍集成安装的步骤:
2015-08-29 14:17:24 2291 1
转载 谁在使用我的网站——用户忠诚和价值分析
谁在使用我的网站——用户忠诚和价值分析前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值,而且可以为网站带
2015-08-25 16:22:13 1576
原创 从关系库导入数据到hive-hbase表中
[Author]: kwu -- 从关系库导入数据到hive-hbase表中,关系库到hbase中,可以直接由sqoop来导入,但是我们要对rowkey做特殊处理并加入更新时间,则操作步骤如下:
2015-08-24 13:57:02 1484 1
原创 hbase实现分页查询
[Author]: kwu --- hbase实现分页查询,实现按时间查询最新的15条,hbase的查询主要是通过rowkey来进行的,保证查询的高效。column的filter查询效率较低。
2015-08-20 15:28:45 4131 1
原创 hive命令行不打印日志
[Author]: kwu --- hive命令行不打印日志,hive的命令行运行会输出mapreduce的日志,这些日志对大部分用户来说是不需要的。
2015-08-09 23:34:40 11392 11
原创 解决sqoop导入关系库更新联合主键的问题
[Author]: kwu --- sqoop导入关系库更新联合主键的问题,把数据从hive中导入关系库,如果关系库表有联合主键的情况,且需要把新导入的数据更新原来的数据
2015-08-07 18:47:01 5897
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人