大数据
文章平均质量分 82
SZleoWang
这个作者很懒,什么都没留下…
展开
-
sql中插值法完成缺失数据的填充
从Excel中导入了一批数据到Sqlserver,但因为原始数据不全,中间有些数据漏掉了。比如下面这种情况。ID为2的so数据为0。ID为3,4的co1数据缺失了,暂时用0代替。ID so co11 0.1 0.12 0 0.23 0.2 04 0.25 05 0.2 0.4使用差值法将这些缺失的数据补齐。插值计转载 2017-01-13 16:50:02 · 8394 阅读 · 0 评论 -
模拟java 数据处理
import java.sql.Timestamp;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import java.util.HashMap;import java.util.List;impo原创 2017-05-21 16:55:07 · 447 阅读 · 0 评论 -
快速为MySQL创建大量测试数据
引言在PostgreSQL中可以用generate_series()函数来快速生成大量测试数据,在MySQL中没有提供类似的东西。那么在做测试的时候,要往表中插入大量数据库该怎么办?可以写一个循环执行INSERT语句的存储过程,但这种方式还是太慢,我试了下,1秒钟居然只能插500条记录。比较快的方式是用程序生成一个数据文件,再用load data加载。但是直接用程序生成最终的测试数据的方式又不够灵原创 2017-05-10 17:45:13 · 2324 阅读 · 0 评论 -
海量数据优化查询
http://www.cnblogs.com/lovexinsky/archive/2012/03/09/2387526.html数据库系统是管理信息系统的核心,基于数据库的联机事务处理(OLTP)以及联机分析处理(OLAP)是银行、企业、政府等部门最为重要的计算机应用之一。从大多数系统的应用实例来看,查询操作在各种数据库操作中所占据的比重最大,而查询操作所基于的SELECT语转载 2017-01-12 08:24:29 · 326 阅读 · 0 评论 -
sql 调优整理【来自网络】
1. 选用适合的ORACLE优化器 ORACLE的优化器共有3种: a. RULE (基于规则) b. COST (基于成本) c. CHOOSE (选择性) 设置缺省的优化器,可以通过对init.ora文件中OPTIMIZER_MODE参数的各种声明,如RULE,COST,CHOOSE,ALL_ROWS,FIRST_ROWS . 你当然也在SQL句转载 2017-01-12 08:21:44 · 336 阅读 · 0 评论 -
如何处理海量数据
如何处理海量数据在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中转载 2017-01-12 08:19:07 · 436 阅读 · 0 评论 -
JAVA获取某段时间内的所有日期
package Datess.生成一年的日期;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import java.util.List;public class OneYearDate {原创 2017-01-11 16:47:55 · 3549 阅读 · 0 评论 -
BitSetConvert
package Datess;import java.util.Arrays;import java.util.BitSet;public class BitSetConvert {public static byte[] bitSet2ByteArray(BitSet bitSet) {byte[] bytes = new byte[bitSet.size()转载 2017-01-11 16:45:21 · 317 阅读 · 0 评论 -
Java 版本 Redis 统计7天连续在线用户人数
import java.util.BitSet;import redis.clients.jedis.Jedis;public class SetBitTest3 {/* public int uniqueCount(Jedis redis,String action, String date) { String key = action + ":" +原创 2017-01-11 16:44:08 · 5762 阅读 · 1 评论 -
BitSetDemo2 进行数字排序
package Datess;import java.util.Arrays;import java.util.BitSet;public class BitSetDemo2 {/*** 求一个字符串包含的char* */public static void containChars(String str) {BitSet used =原创 2017-01-11 13:43:10 · 269 阅读 · 0 评论 -
BitSet 设置及取值 求交集和求并集
package Datess;import java.util.Arrays;import java.util.BitSet;public class BitSetDemo {public static void main(String[] args) {BitSet bm = new BitSet();bm.set(1);bm.set(2);/*原创 2017-01-11 13:41:32 · 2247 阅读 · 0 评论 -
利用Redis实现亿级别用户登录统计(活跃度以及登录次数统计)
用: 位图法 bit-mapLog0721: ‘011001...............0’ ......log0726 : ‘011001...............0’Log0727 : ‘0110000.............1’ 1: 记录用户登陆:每天按日期生成一个位图, 用户登陆后,把user_id转载 2017-01-10 14:48:08 · 6292 阅读 · 0 评论 -
jedis 实现 redis 统计一个用户在一段时间内的登录次数
import java.util.BitSet;import redis.clients.jedis.Jedis;public class SetBitTest {public static void main(String[] args) {// TODO Auto-generated method stubJedis j = null;t原创 2017-01-10 14:27:22 · 7206 阅读 · 1 评论 -
随机数算法
软件实现的算法都是伪随机算法,随机种子一般是系统时间在数论中,线性同余方程是最基本的同余方程,“线性”表示方程的未知数次数是一次,即形如:ax≡b (mod n)的方程。此方程有解当且仅当 b 能够被 a 与 n 的最大公约数整除(记作 gcd(a,n) | b)。这时,如果 x0 是方程的一个解,那么所有的解可以表示为:{x0+kn/d|(k∈z)}其中 d 是a 与 n 的最大转载 2017-01-10 10:37:55 · 612 阅读 · 0 评论 -
一个介绍hadoop中MapReduce原理的通俗易懂的例子
例子不是原创,但是本人觉得这个例子形容得不错,分享一下(从百度百科里面看到的)不知道你们认为怎么样?如果想统计下过去10年计算机论文出现最多的几个单词,看看大家都在研究些什么,那收集好论文后,该怎么办呢?方法一:我可以写一个小程序,把所有论文按顺序遍历一遍,统计每一个遇到的单词的出现次数,最后就可以知道哪几个单词最热门了。这种方法在数据集比较小时,是非常有效的,而且转载 2017-01-10 10:27:06 · 879 阅读 · 0 评论 -
大数据处理算法二:Bloom Filter算法
百度面试题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例:转载 2017-01-10 10:16:04 · 314 阅读 · 0 评论 -
大数据处理算法一:BitMap算法
腾讯面试题:给20亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少? 解析:bitmap算法就好办多了 所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。 例如,要判断一千万个人的状态,每个人只有两种状态:男人,女人,可以转载 2017-01-10 10:07:11 · 383 阅读 · 0 评论 -
如何用插值法补齐缺失的数据
在我做的大气污染报表系统中,由于原始数据缺失,经常出现一些负数或者0的大气浓度,导致最后生成的曲线很丑,会画到水平轴以下。将这些错误的数据当错缺失数据处理,需要采取一定的手段填充。缺失的数据采取插值法填充,这一点早就确定下来,但在如何实现上却困扰很久。 将原始问题简化一下。比如有这样一组数据。ID so co11 0.1 0.12 0 0.2原创 2017-01-13 16:57:07 · 33507 阅读 · 2 评论 -
Java 线性内推算法
内推法:指根据已知的系列数值推算出一个在已知数值之间的数值. 内推法假定数值之间存在某种明确的关系,不是一种精确的推算法,但可用于估算债券价格和收益率。内推法分三种类型:线性内推法、对数内推法和立方内推法import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar原创 2017-05-21 19:02:57 · 1268 阅读 · 0 评论