2017年03月_sysmedia

09月 06月 05月 04月 03月 02月

转载 Bit Map算法简介

1. Bit Map算法简介来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。2、 Bit Map的基本思想我们先来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这

2017-03-26 20:35:39 657

转载海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有

2017-03-26 20:34:03 2244

转载 Spark：用Scala和Java实现WordCount

http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写Scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。用Scala和Java实现WordCount，其中Java实现的JavaWordCount是Sp

2017-03-26 18:30:55 452

转载 Spark-ML-01-小试spark分析离线商品信息

任务一个在线商品购买记录数据集，约40M,格式如下：Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,9912341234完成统计： 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.u

2017-03-23 23:10:49 392

转载 Spark SQL 初探：使用大数据分析2000万数据

目录 [−]安装和配置SparkSpark初试使用Spark SQL分析数据去年网上曾放出个2000W的开房记录的数据库，不知真假。最近在学习Spark，所以特意从网上找来数据测试一下，这是一个绝佳的大数据素材。如果数据涉及到个人隐私，请尽快删除，本站不提供此类数据。你可以写个随机程序生成2000W的测试数据，以CSV格式。Spark是UC Berke

2017-03-23 23:08:58 1385

转载基于Spark的用户行为路径分析的产品化实践

1. 什么是用户行为路径用户行为路径分析是互联网行业特有的一类数据分析方法，它主要根据每位用户在App或网站中的点击行为日志，分析用户在App或网站中各个模块的流转规律与特点，挖掘用户的访问或点击模式，进而实现一些特定的业务用途，如App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画，App产品设计的优化与改版等。2. 路径分析业务场景用户行为路径分析的一

2017-03-23 23:04:39 2829

转载 Spark 入门实战之最好的实例

转载：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易，Scala IDE 官网下载合适的版本并解压就可以完成安装，本文使用的版本是 4.1.0。安装 Scala 语言包如果下载的 S

2017-03-10 17:38:00 607

转载 Spark性能优化：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占

2017-03-08 15:33:32 342

转载 Hive统计新增,日活和留存率

用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用

2017-03-08 14:55:47 3343

转载 Spark SQL访问Hive，MySQL

一：版本搭建好的Hadoop环境，Hive环境,Spark环境。本文Hadoop版本为 Hadoop-2.6.4，Hive版本为Hive-2.0.0，Spark版本为spark-1.6.1-bin-hadoop2.6。二：配置spark-env.sh 在 SPARK_HOME/conf/spark-env.sh 中配置以下内容：

2017-03-08 14:54:30 1260

在大数据应用场景下，使用过Hive做查询统计分析的应该知道，计算的延迟性非常大，可能一个非常复杂的统计分析需求，需要运行1个小时以上，但是比之于使用MySQL之类关系数据库做分析，执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句，最终经过Hive查询解析器，翻译成Hadoop平台上的MapReduce程序进行运行，这也是MapReduce计算引擎的特点带来的延迟问题：Map中间结果写

2017-03-08 14:51:23 556

转载 scala筛选460亿条记录的hive表

背景：接到任务，需要在一个一天数据量在460亿条记录的hive表中，筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度：解析规则譬如：1234需要解析host: api.map.baidu.com需要解析的规则："result":{"location":{"lng"

2017-03-08 14:40:37 1869

转载从JVM内存模型谈线程安全

存储器层次结构对于开发者来说,存储器的层次结构应该是非常熟悉的,大体如下: 其中寄存器,L1,L2,L3都被封装在CPU芯片中,作为应用开发者而言我们很少去注意和使用它.之所以引入L1,L2,L3高速寄存器,其根本是为了解决访问运算器和内存速度不匹配.但缓存的引入也带来两个问题:缓存命中率:缓存的数据都是主存中数据的备份,如果指令所需要的数据恰好在缓存中,我们就说缓存命

2017-03-06 15:00:59 674

转载报表组件FineReport如何连接hadoop,hive数据库

Hadoop是个很流行的分布式计算解决方案，Hive是基于hadoop的数据分析工具。一般来说我们对Hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，这样的模式用来做一些测试比较合适，并不适合做产品的开发和应用。因此，就产生Hive的JDBC连接的方式。下面就通过报表组件FineReport向大家介绍。

2017-03-03 08:54:16 4119

转载基于HIVE数据库出报表的后台相关工具介绍

1. Sqoop是让Hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,Hive之间数据导入导出的一个工具.2. SQLyogSQLyog 是业界著名的 Webyog 软件公司出品的一款简洁高效、功能强大的图形化MySQL数据库管理工具。使用SQLyog可以快速直观地让您从世界的任何角落通过网络来维护远端的MySQL数据库。3.

2017-03-03 08:52:02 541

转载 Hive统计新增,日活和留存率, 使用sqoop导出到MYSql

2017-03-03 08:50:49 650

2018年数据可视化的8大趋势

众多机构致力于从位置数据中获得更多真知灼见，并且更清晰地展示它们的研究成果，高质量的数据可视化所带来的价值未来必将持续增加。以下是我们将在2018年持续关注的一些数据可视化的重要趋势。

2018-01-10

带时间的万年自动计算考勤表

带时间的万年自动计算考勤表，可以灵活配置，用于公司考勤

2018-01-10

超全面实用的工资表(自动生成报盘、报税）

超全面实用的工资表(自动生成报盘、报税），可以灵活配置

2018-01-10

elasticsearch集成ik分词器详细文档

elasticsearch集成ik分词器详细文档，包括elasticsearch的应用和部署

2018-01-10

大数据安全实践

大数据安全实践，安全问题背景魅族大数据安全标准体系魅族大数据平台安全架构大数据安全技术

2018-01-10

2017人工智能人才白皮书

全球AI人才发展现状，中国AI人才市场为何一将难求。

2018-01-10

Kafka核心原理与实战（并不是原书，请看描述和评论下载）

Kafka是一个分布式的消息队列系统，消息存储在硬盘上，描述了Kafka原理和安装部署的过程（Kafka核心原理与实战【整理人：北京海子】）

2018-01-10

数据透视表--实例教程

数据透视表--实例教程二，包含教程中用到的数据，便于实践参考

2018-01-09

glpi 资产管理系统

glpi 资产管理系统，采用PHP + MySql，功能强大，部署方便

2017-04-22

小牛OA系统

小牛OA系统，使用php + mysql，快速部署，方便快捷，功能齐全

2017-04-22

Telnet 和 SSH 的区别

介绍了Telnet和SSH的区别，以及SSH1和SSH2的区别，SSH1的缺陷，SSH2的特点

2016-04-28

java_java写XML文件和读取XML文件

java写XML文件和读取XML文件，提供源代码，可以直接使用

2014-09-25

Telnet Server Client 最小化Java实现

一个运用Socket技术的Telnet server 和 Client 的简单实现。

2012-03-29

C语言面试题大汇总C语言,面试题,汇总

C语言面试题大汇总,还有对试题的分析和详细答案

2011-01-04

《开源》200802.pdf

2008-04-08

《开源》200801.pdf

《开源》本着实用的原则，目前划分了七个栏目，第一个栏目是产业聚集，其中包括两块内容，第一是资讯，对于发展得如火如荼的开源领域，一月的时间会发生很多很多的事件，而这个栏目将对一月的新闻有个采集汇总，而第二块内容则是对一些热点事件的深度或持续的关注，或者评论，或者报道，使读者能清晰地理清开源领域发展脉络。 第二个栏目是博客文摘，作为Web 2.0的代表作，博客已经越来越深入得影响了我们的生活，博客开放的思想与开源多少有着一脉相承的味道。这个栏目我们将选取一些开源领域重量级人物的博客，做成文摘的形式，使读者在了解开源动态的前提下，更多地了解到一些前沿的观点。 开源社区是开源的灵魂，这样的观点得到了大家的公认。第三个栏目就将完全关注开源社区，其中会有从社区走出的开源项目的一些最新动态的报道，对于一些优秀的开源项目，也将以科普的形式进行详细的介绍。同时，对于我们开源社区的一些活动，开源社区的一些新技术，来自开源社区的议论都将在这个栏目呈现给大家。 知识学堂这个栏目主要普及开源的知识、文化，以及一些大家都关注的开源应用。以讲座和连载的形式让大家都深入的了解开源文化，对于一些长篇的开源应用讲座，也将在这个栏目进行体现，这类讲座将包括基础的命令讲解到高级的内核解读。 桌面应用将介绍来自桌面的新产品、新工具、新应用，以及各式各样的应用技巧。同时会对桌面软件进行评测和试用报告，刚刚迈进开源应用大门的初学者能从这里获得足够的信心，完全地玩转开源的各种应用。 企业级应用则将推出企业级的新产品、新方案，同时对运用开源软件进行IT环境搭建和运维进行指导，介绍能满足于企业级应用的优秀开源项目，对于复杂IT环境应用中的各种问题也将进行讨论，这个栏目的宗旨一句话可以概括：“自从用了开源企业级软件，我们明显感觉更省钱了。” 混源新视界则是我们推出的一个战略性的栏目，在开源与商业越来越紧密的今天，混源应用得到了广泛的发展。目前的IT环境，很少有纯开源或者纯闭源的软件，开源与传统的商业软件更多的是融合在一起，协同工作。对于混源这个概念，微软也有着自己的解释，那就是异构环境，无论是混源还是异构，毕竟是未来的趋势，趋势性的东西就是值得我们关注的东西，昨天经典的“LAMP”架构到了今天又延伸出了“WAMP”架构，这都是来自混源的魔力，而受益的都是最终用户。 七个栏目组成了我们第一期电子杂志，《开源》这本电子杂志就如同当年那个笨拙的小企鹅，需要更多的人关注和支持，需要更悉心的照料，它才能存活下来，才能健康的成长起来。第一期杂志难免有诸多不尽人意的地方，也希望大家将更多的意见反馈给我们，我们将尽力将这本开源领域惟一的电子杂志办的更好。

2008-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sysmedia的博客

转载 Bit Map算法简介

转载海量数据处理算法—Bloom Filter

转载 Spark：用Scala和Java实现WordCount

转载 Spark-ML-01-小试spark分析离线商品信息

转载 Spark SQL 初探：使用大数据分析2000万数据

转载基于Spark的用户行为路径分析的产品化实践

转载 Spark 入门实战之最好的实例

转载 Spark性能优化：shuffle调优

转载 Hive统计新增,日活和留存率

转载 Spark SQL访问Hive，MySQL

转载 Spark-1.3.1与Hive整合实现查询分析

转载 scala筛选460亿条记录的hive表

转载从JVM内存模型谈线程安全

转载报表组件FineReport如何连接hadoop,hive数据库

转载基于HIVE数据库出报表的后台相关工具介绍

转载 Hive统计新增,日活和留存率, 使用sqoop导出到MYSql

2018年数据可视化的8大趋势

带时间的万年自动计算考勤表

超全面实用的工资表(自动生成报盘、报税）

elasticsearch集成ik分词器详细文档

大数据安全实践

2017人工智能人才白皮书

Kafka核心原理与实战（并不是原书，请看描述和评论下载）

数据透视表--实例教程

glpi 资产管理系统

小牛OA系统

Telnet 和 SSH 的区别

java_java写XML文件和读取XML文件

Telnet Server Client 最小化Java实现

C语言面试题大汇总C语言,面试题,汇总

《开源》200802.pdf

《开源》200801.pdf

空空如也