Mapreduce实例-JOIN

package com.sohu.tv.amstat.mr.test; import java.io.IOException; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.h...
阅读(138) 评论(0)

Spark MLlib之协同过滤

Spark MLlib 协同过滤实例...
阅读(610) 评论(0)

Spark MLlib之KMeans

Spark MLlib之KMeansimport org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; im...
阅读(380) 评论(0)

Spark MLlib之线性回归

回归 RegressionMetrics mllib spark...
阅读(572) 评论(1)

SPARK各种提交方式总结

1,Spark SQL1.1 spark sql运行在yarn之前注意在/etc/profile配置export HADOOP_HOME=/data/hadoop/hadoop-2.7.1export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop1.2 需要将hive-sit...
阅读(628) 评论(0)

Hive ORC数据格式的MapReduce Shuffle

1,mr代码如下package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apach...
阅读(337) 评论(0)

MD5/DES/AES加密实现

三种加密方式,java版本实现代码如下:import java.io.UnsupportedEncodingException; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; import javax.crypto.Cipher; import javax.crypto.Ke...
阅读(1255) 评论(0)

[译] MYSQL索引最佳实践

转自http://www.uoota.com/blog/archives/27218?utm_source=geek你做了一个明智的选择理解索引对开发和dba来说都是极其重要差劲的索引对产品问题负相当大的一部分责任索引不是多么高深的问题MySQL 索引一览表理解索引为你的应用创建最佳索引拥抱MySQL的限制简述索引索引有什么用为从数据库读取数据加速强制约束 (唯一索引 UNIQUE, 外键 FOR...
阅读(401) 评论(0)

python,scala,java中的map,reduce和filter

1,python中的map,reduce,filter使用     >>> a=[1,2,3,5] >>> map(lambda x:x+x,a) [2, 4, 6, 10] >>> map(lambda x:2*x,a) [2, 4, 6, 10] >>> reduce(lambda x,y:x*y,a) 30 >>> filter(lambda x : x%2,a) [1, 3, 5]2,sc...
阅读(962) 评论(1)

数据挖掘-高等数学常用概念用法总结

1,  对数:如果a的x次方等于N(a>0,且a不等于1),那么数x叫做以a为底N的对数(logarithm),记作x=logaN。其中,a叫做对数的底数,N叫做真数默认以e为底数>>> from math import * >>> log(8,2) 3.0 >>> log(100,10) 2.0 >>> log10(100) 2.0 >>> log(10) 2.302585092994046...
阅读(1095) 评论(0)

史上最全“大数据”学习资源整理

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。  为了帮助大家更好深入了解大数据,云...
阅读(1263) 评论(0)

Hbase的REST访问

Hbase的访问方式1、Native Java API:最常规和高效的访问方式;2、HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用;3、Thrift Gateway:利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据;4、REST Gateway:支持REST 风格的Http API访问HBase,...
阅读(5095) 评论(0)

Hive ORC数据格式的MapReduce读写

1,先上代码package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache....
阅读(4837) 评论(0)

数据交换工具DataX使用

1,下载svn co http://code.taobao.org/p/datax2,安装根据服务器安装软件情况可能需要安装下面软件yum install antyum install gcc-c++进入rpm目录编译cd datax/trunk/rpmrpmbuild --ba t_dp_datax_engine.specrpmbuild --ba  t_dp_datax_hdfsreader....
阅读(6823) 评论(1)

MySQL一些SQL技巧

1,一行转多行      url列以分号分隔,将其一行转化为多行,借助自增长表help_topic 实现。select a.channel_id,channel_code,site_name,siteid,refer_channel,substring_index(substring_index(a.url,';',b.help_topic_id+1),';',-1) as urls from...
阅读(3938) 评论(0)
174条 共12页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:613786次
    • 积分:7036
    • 等级:
    • 排名:第3209名
    • 原创:122篇
    • 转载:51篇
    • 译文:1篇
    • 评论:128条
    联系方式
    https://github.com/qifengdao
    博客专栏
    最新评论