大数据处理
文章平均质量分 89
基于分布式的大数据统计分析等
-早起的码农
这个作者很懒,什么都没留下…
展开
-
StarRocks安装
rpm -e --nodeps mysql // 强力删除模式,如果使用上面命令删除时,提示有依赖的其它文件,则用该命令可以对其进行强力删除。rpm -e mysql // 普通删除模式。下载完解压,配置STARROCKS_HOME。原创 2022-10-25 19:21:23 · 2386 阅读 · 0 评论 -
作为码农你必须懂的序列化
一、基本概念 序列化:将对象写入到IO流中 反序列化:从IO流中恢复对象 意义:序列化机制允许将实现序列化的Java对象转换位字节序列,这些字节序列可以保存在磁盘上,或通过网络传输,以达到以后恢复成原来的对象。序列化机制使得对象可以脱离程序的运行而独立存在。 使用场景:所有可在网络上传输的对象都必须是可序列化的,比如RMI(remote method invoke,即远程方法调用),传入的参数或返回的对象都是可序列化的,否则会出错;所有需要保存到磁盘的java对象都.原创 2021-02-09 16:23:22 · 266 阅读 · 0 评论 -
隐私保护广告行业新生态
不管我们用IOS手机,还是ANDROID类型的手机,又或者是浏览器,只有拥有一个用户设备的唯一标识才能对使用该设备的用户进行精准的广告投放,个性化推荐以及广告等浏览的频次控制。下面让我们一起回顾一下各种终端下唯一的设备标识的变迁历史。一IOS的变迁和对行业影响 下面是IOS端可获取的标识,随着人们对数据隐私的重视和《一般数据保护法案》(General Data Protection Regulation (GDPR)实施,各种标识也在不断被被禁用,直到去年上市发布的ios1...原创 2021-02-09 16:21:37 · 1255 阅读 · 2 评论 -
Cookie、sessionStorage和localStorage
一 HTML4的本地存储cookiecookie和session都是用来跟踪浏览器用户身份的会话方式。我们通过了解两者的区别来了解cookie:1、保持状态:cookie保存在浏览器端,session保存在服务器端2,使用方式:Cookie是服务器发给客户端的特殊信息,cookie是以文本的方式保存在客户端,每次请求时都带上它。服务器收到请求需要创建session对象时,首先会检查客户端请求中是否包含sessionid。如果有sessionid,服务器将根据该id返回对应session对象。如果原创 2021-02-09 16:19:56 · 287 阅读 · 0 评论 -
Flink API入门
Flink数据处理流程 通过前面的文章我们大概了解了实时流处理框架,这篇文章开始我们将详细来学习下Flink的使用。Flink为开发流式/批处理应用程序提供了不同级别的抽象。而这几个抽象的模块中DataStream API用于处理实时流处理,DataSetAPI用于离线批处理。入门Flink API 后面我们都选择使用Scala来完成Flink程序的编写,当然你也可以选择Java或者Python。Scala DataSet API的所有核心类都在包org...原创 2020-07-04 15:32:21 · 475 阅读 · 2 评论 -
Flink Transformation 操作
前面我们介绍了Flink DataStream数据处理流程中的source和sink,这篇文章我们介绍一下 Flink的Transformation 的操作,一般常用的算子有下面几种,我们分别用代码来演示下他基本用法:Map操作val stream = env.generateSequence(1, 5)//简单的map操作//val streamMap = stream.map(item => item * 3)//复杂的map操作val streamMap = stre...原创 2020-07-04 15:43:48 · 518 阅读 · 0 评论 -
Flink实时统计入MySQL
先上代码片段import java.sql.Typesimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.flink.api.java.io.jdbc.JDBCOutputFormatimport org.apache.flink.api.scala._import org.apache...原创 2020-01-14 19:25:11 · 3449 阅读 · 0 评论 -
hadoop集群lzo的安装
主要步骤:1,安装和更新gcc、ant(系统已经安装的话,略去下面步骤)yum -y install gcc gcc-c++ autoconf automakewget http://labs.renren.com/apache-mirror//ant/binaries/apache-ant-1.8.2-bin.tar.gztar -jxvf apache-ant-1.8.2-原创 2012-01-05 23:01:01 · 3424 阅读 · 1 评论 -
MapReduce 编程模型在日志分析方面的应用
MapReduce 编程模型简介随着信息化的进一步加深,在各个领域,如电信、交通、金融、零售、航天、医药等,数据量级都呈现快速增长趋势。如何高效并且无误地存储、分析、理解以及利用这些大规模数据,成为一个关键性问题。为了应对大规模数据处理的难题,MapReduce 编程模型应运而生。Google 提出的这一模型,由于良好的易用性和可扩展性,得到了工业界和学术界的广泛支持。Hadoop,Map转载 2012-01-10 14:31:08 · 1860 阅读 · 0 评论 -
Facebook数据仓库揭秘:RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数转载 2012-02-22 22:52:02 · 1971 阅读 · 0 评论 -
Mapreduce实例-TopK
public class TopK extends Configured implements Tool { public static class TopKMapper extends Mapper { public static final int K = 100; private TreeMap tm = new TreeMap();原创 2013-09-05 19:24:13 · 2687 阅读 · 0 评论 -
Mapreduce实例-sort全排序
public class SamplerInputFormat extends FileInputFormat { static final String PARTITION_FILENAME = "_partition.lst"; static final String SAMPLE_SIZE = "terasort.partitions.sample"; pr原创 2013-09-05 19:32:05 · 3638 阅读 · 1 评论 -
Mapreduce实例-分组排重(group by distinct)
实现一下几个类,代码太多,列了下主要代码,可根据排重数据的特征判读是否需要添加combiner来提速。 public class GroupComparator implements RawComparator { @Override public int compare(MyBinaryKey o1, MyBinaryKey o2) { return o1.toString(原创 2013-09-05 22:17:26 · 4593 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架转载 2013-10-26 18:45:36 · 2314 阅读 · 0 评论 -
MetaQ集群安装测试
1,下载https://github.com/killme2008/Metamorphosis/tree/metamorphosis-all-1.4.6.2,如果不想自己编译可以直接下载http://fnil.net/downloads/index.html,我这里选择自己编译,主要是以后如果出现问题自己可以修改其源码,重新编译2,maven编译,maven环境自己搜索配置好,下载all项目后需要原创 2014-02-26 12:43:20 · 3634 阅读 · 1 评论 -
Mapreduce实例-JOIN
package com.sohu.tv.amstat.mr.test;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.h原创 2017-07-28 13:55:17 · 636 阅读 · 0 评论 -
HIVE全部函数详解
函数名 含义及实例 abs abs(x) - returns the absolute value of x Example: > SELECT abs(0) FROM src LIMIT 1; 0 > SELECT abs(-5) FROM src LIMIT 1; 5 acos acos(x) - returns the原创 2017-09-13 18:04:28 · 17347 阅读 · 1 评论 -
SPARK各种提交方式总结
1,Spark SQL1.1 spark sql运行在yarn之前注意在/etc/profile配置export HADOOP_HOME=/data/hadoop/hadoop-2.7.1export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop1.2 需要将hive-sit原创 2017-03-21 18:24:04 · 5655 阅读 · 0 评论 -
Spark MLlib之线性回归
回归 RegressionMetrics mllib spark原创 2017-03-22 14:12:46 · 2953 阅读 · 1 评论 -
Spark MLlib之KMeans
Spark MLlib之KMeansimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function;im原创 2017-03-22 17:46:04 · 1721 阅读 · 1 评论 -
Spark MLlib之协同过滤
Spark MLlib 协同过滤实例原创 2017-03-23 14:16:20 · 1979 阅读 · 0 评论 -
Hive ORC数据格式的MapReduce Shuffle
1,mr代码如下package com.test.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apach原创 2017-03-03 17:01:25 · 1511 阅读 · 0 评论 -
hive ORC 文件存储格式
ORC file format,它的全名是Optimized Row Columnar (ORC) file format。使用ORC文件格式提升Hive读、写与处理数据的性能。 存储方式为数据按行分块,每块按照列存储 压缩快 快速列存取 效率比rcfile高,是rcfile的改良版本 具体可以参考官网: https://cwiki.apache.org/co原创 2015-10-27 15:13:23 · 3310 阅读 · 5 评论 -
Redis集群搭建与应用
1,选择两台服务器2,安装redis wget http://download.redis.io/releases/redis-2.8.12.tar.gz tar -xvf redis-2.8.12.tar.gz cd redis-2.8.12 make3,配置 vi redis.conf 主修改 daemonize yes bind 192原创 2016-01-28 16:54:50 · 2228 阅读 · 6 评论 -
数据交换工具DataX使用
1,下载svn co http://code.taobao.org/p/datax2,安装根据服务器安装软件情况可能需要安装下面软件yum install antyum install gcc-c++进入rpm目录编译cd datax/trunk/rpmrpmbuild --ba t_dp_datax_engine.specrpmbuild --ba t_dp_datax_hdfsreader.原创 2016-07-22 19:31:37 · 16335 阅读 · 1 评论 -
Mongodb在Windows下安装及配置
1.下载mongodb的windows版本,有32位和64位版本,根据系统情况下载,下载地址:http://www.mongodb.org/downloads2.解压缩至D:/mongodb即可3.创建数据库文件的存放位置,比如D:/mongodb/data/db。启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而且不能启动成功。默认文件夹路径为c:/d...原创 2011-01-08 19:44:00 · 71952 阅读 · 26 评论 -
R语言绘图
安装venneuler包install.packages("venneuler")选择china镜像#载入venneuler包library(venneuler)vd <- venneuler(c(A=0.3, B=0.3, C=1.1, "A&B"=0.1, "A&C"=0.2, "B&C"=0.1 ,"A&B&C"=0.1))plot(vd)# same as c(A=1, `A&B&C`原创 2015-10-22 16:21:04 · 2597 阅读 · 1 评论 -
R语言的数据结构
R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表1 标量标量是只含一个元素的向量,例如a2 向量R中的向量可以理解为一维的数组,每个元素的mode必须相同.函数c,是组合函数,可以用创建数组,如x b x[2] 访问数组中第2个元素。这里没有下标,从 1 开始计算距离x[c(2:4)] 访问数组中第2到4个元素x[c(2,4)] 访问数组中第2个和第4个元素3 矩阵 可原创 2015-10-22 11:55:17 · 4744 阅读 · 0 评论 -
Storm初体验
Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解跟多请自己google,安装过程也请自己搜索。 做了一个简单的例子package mapstorm;import backtype.storm.Config;import backtype.storm.StormSubmitter;import backtype.storm.top原创 2014-01-09 18:21:22 · 3030 阅读 · 0 评论 -
spark集群安装
这里是结合hadoop2.0使用的1,download :http://spark.incubator.apache.org/downloads.html选择prebuilt:中hadoop2的下载2,download scala,http://www.scala-lang.org/download/all.html根据下载的spark的README中的描述下载合适的版本3,安装 其实就是解压,配原创 2014-02-10 19:00:00 · 3129 阅读 · 0 评论 -
Hadoop集群机架感应配置
首先在core-site.xml中配置如下参数: topology.script.file.name /opt/hadoop/bin/rackawareness.py rackawareness.py脚本内容如下 #!/usr/bin/pythonimport sysfrom string import joinDEFAULT_RACK = '/default/rack0';R原创 2012-10-05 21:21:29 · 2720 阅读 · 0 评论 -
mapreduce程序reduce输出控制
1,在hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法public class LzoHandleLogMr extends Configured implements Tool { static class LzoHandleLogMapper extend原创 2012-02-25 22:01:38 · 5378 阅读 · 0 评论 -
hive UDF实现一个字符串解码函数
其实hive的udf 是比较容易实现的,只需要继承UDF,实现其evaluate()方法,代码如下。@Description(name = "decoder_url", value = "_FUNC_(url [,code][,count]) - decoder a URL from a String for count times using code as encoding schem原创 2012-07-26 15:31:44 · 6109 阅读 · 1 评论 -
HIVE UDAF和UDTF实现group by后获取top值
先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map counts; private int limit;原创 2012-07-26 14:52:57 · 4912 阅读 · 0 评论 -
Mapreduce中的RCFile输入RCFileInputFormat实现及其应用
基于旧的mapreduce的api的输入格式在hive中已有实现,在org.apache.hadoop.hive.ql.io下,下面代码是根据其源码自己实现的新mapreduce api接口。上代码:RCFileInputFormat.java import java.io.IOException;import org.apache.hadoop.hive.serde2.columnar.Byt原创 2012-08-26 20:11:00 · 5162 阅读 · 1 评论 -
Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用
自定义实现RCFileOutputFormat.java import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado原创 2012-08-26 20:39:30 · 5481 阅读 · 3 评论 -
Hbase基于Mapreduce的编程
小试牛刀,将mapreduce的输出结果保存到大型分布式数据库中HBase中,一个例子,求各url的访问pv数据,由于用到rcfile格式需要导入hive-exce包,还需要加载hbase包,如果这两个包都已经被集群管理员放到各节点的hadoop/lib下那就可以省去这一步,废话不说,干货,看代码:package test.hbase;import java.io.IOException;原创 2012-08-26 20:50:33 · 3366 阅读 · 1 评论 -
morphia for MongoDB
Morphia is a lightweight type-safe library for mapping Java objects to/from MongoDB: Morphia是一个安全轻量级的为MongoDB设计的java持久化架构。1.要使用Morphia,需要依赖下原创 2011-01-17 17:24:00 · 7434 阅读 · 1 评论 -
java并行计算Fork/Join和python并行计算pp
计算给定数组中数据所有素数之和java的Fork/Join实现,需要jsr166y的下载http://g.oswego.edu/dl/concurrency-interest/import java.util.concurrent.TimeUnit;import jsr166y.原创 2011-05-05 12:11:00 · 3628 阅读 · 1 评论 -
Hadoop集群参数配置原则
dfs.datanode.handler.countdatanode上用于处理RPC的线程数。默认为3,较大集群,可适当调大些,比如8。需要注意的是,每添加一个线程,需要的内存增加。tasktracker.http.threadsHTTP server上的线程数。运行原创 2011-08-28 21:54:37 · 3811 阅读 · 1 评论