关闭

HDFS dfsclient写文件过程 源码分析

HDFS写入文件的重要概念 HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。 在写入一个block的时候,数据传输的基本单位是pac...
阅读(712) 评论(0)

HDFS dfsclient读文件过程 源码分析

HDFS读取文件的重要概念 HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候,数据传输的基本单位是packet,...
阅读(683) 评论(0)

HDFS datanode源码分析

datanode的介绍 一个典型的HDFS系统包括一个NameNode和多个DataNode。DataNode是hdfs文件系统中真正存储数据的节点。 每个DataNode周期性和唯一的NameNode通信,还时不时和hdfs客户端代码以及其他datanode通信。   datanode维护一个重要的表:   块=>字节流 这些存储在本地磁盘,DataNode在...
阅读(975) 评论(0)

HDFS namenode源码分析

Namenode的介绍 一个典型的HDFS系统包括一个NameNode和多个DataNode。 NameNode作为HDFS中文件目录和文件分配的管理者,它保存的最重要信息,就是下面两个映射: 文件名=>数据块 数据块=>DataNode列表 其中,文件名=>数据块保存在磁盘上(持久化);但NameNode上不保存数据块=>DataNode列表,该列表是通过Dat...
阅读(1556) 评论(0)

HDFS的基本概念

HDFS的基本概念 1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 2、元数据节点(Namenode)...
阅读(588) 评论(0)

谁在使用我的网站——用户忠诚和价值分析

谁在使用我的网站——用户忠诚和价值分析 前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值,而且可以为网...
阅读(579) 评论(0)

C#通过sp端口发送短信

using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Security; using System.Web.UI; using System.Web.UI.WebControls; using System.Web.UI...
阅读(590) 评论(0)

数据挖掘解决精准营销的三大问题

1 我们这次营销的对象是谁?聚类分析、异常分析、RFM分析、决策树、神经网络、 logistics ;  2 如何营销?关联分析、序列分析 ; 3 什么时间营销? 生命周期挖掘、时间序列、回归分析。4、如何评估,T、卡方检验,对比分析,环比同比。...
阅读(762) 评论(1)

使用R处理大数据集

本文翻译自R in Action的附录G,如果对该书感兴趣,请自行购买或去图书馆阅读。 R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。 内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本。以cannot alloca...
阅读(4622) 评论(1)

名词解释CPC、CPM、CPA...

1.CPC(CostPerClick;CostPerThousandClick-Through)每点击成本   以每点击一次计费。这样的方法加上点击率限制可以加强作弊的难度,而且是宣传网站站点的最优方式。但是,此类方法就有不少经营广告的网站觉得不公平,比如,虽然浏览者没有点击,但是他已经看到了广告,对于这些看到广告却没有点击的流量来说,网站成了白忙活。 2.CPM(CostPerMille...
阅读(1636) 评论(0)

各大牛逼网站推荐系统

1. 前言 随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。 个...
阅读(7582) 评论(1)

推荐系统架构小结

一、HULU的推荐系统 总结:葫芦的推荐系统,至少在他blog中写的比较简单。更多的是对推荐系统在线部分的一种描述,离线部分我猜想也是通过分布式计算或者不同的计算方式将算法产生的数据存储进入一种介质中,供推荐系统在线部分调用。系统的整个流程是这样的,首先获取用户的行为,包括(watch、subscribe、vote),这样行为会到后台获取show-show对应的推荐数据。同时这些行为...
阅读(13591) 评论(8)

准确度量 持续改进—网站分析驱动目标达成

1 为什么要对网站进行分析? 首先是第一部分,我们为什么要对网站进行分析?网站分析并不是所有网站的标准配置,很多网站都没有做这个工作,他们也运营的很好。那么我们为什么需要网站分析呢? 在回答这些问题之前,我先要反问一个问题,你的网站为什么存在?如果你不了解网站存在的目的,那么网站分析对于你来说也就没有任何的价值。毕竟网站分析不是街头算命,可以未卜先知。我们需要明确的网站目标!通常情况下,...
阅读(1097) 评论(0)

SQL Server查询优化50法

虽然查询速度慢的原因很多,但是如果通过一定的优化,也可以使查询问题得到一定程度的解决。   查询速度慢的原因很多,常见如下几种: 没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)I/O吞吐量小,形成了瓶颈效应。没有创建计算列导致查询不优化。内存不足网络速度慢查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)锁或者死锁(这也是查询慢最常见的问题,是程序设计的缺陷...
阅读(755) 评论(0)

数据分析预处理的方法——SPSS、Clementine如何处理缺失值、离群值、极值?

【一】什么是预处理、预分析?   高质量数据是数据分析的前提和分析结论可靠性的保障。尽管在获取数据源时数据分析师格外谨慎,耗费大量的时间,但数据质量仍然需持续关注。不管是一手还是二手数据源,总是会存在一些质量问题。同时,为了满足数据分析、挖掘的实际需要,对噪声数据如何处理,是丢弃还是补充,或者重新计算新的数据变量,这些不是随意决定的,这就是数据预处理的一个过程,是在数据分析、挖掘开始前...
阅读(17808) 评论(4)

SQL2005/2008中的CTE应用--递归查询

微软从SQl2005起引入了CTE(Common Table Expression)以强化T-SQL。这是一个类似于非持久视图的好东东。 按照MSDN介绍 1、公用表表达式 (CTE) 可以认为是在单个 SELECT、INSERT、UPDATE、DELETE 或 CREATE VIEW 语句的执行范围内定义的临时结果集。CTE 与派生表类似,具体表现在不存储为对象,并且只在查询期间有效...
阅读(700) 评论(0)

SQL Server 2008中新增的变更数据捕获(CDC)和更改跟踪

SQL Server 2008中SQL应用系列--目录索引   本文主要介绍SQL Server中记录数据变更的四个方法:触发器、Output子句、变更数据捕获(Change Data Capture 即CDC)功能、同步更改跟踪。其中后两个为SQL Server 2008所新增。 一、触发器   在SQL Server的早期版本中,如果要记录某个表或视图的Insert/Up...
阅读(2245) 评论(0)

SSAS使用时间智能解决本年累计、同比、环比

通常,我们需要使用MDX来定义本年累计、同比、环比等一系列基于时间维度的计算指标。但是这样有一个麻烦的地方就是比如我有50个基础指标,每个指标都需要本年累计,那我就需要写50遍下面的语句: create member CURRENTCUBE.[MEASURES].[本年累计交易金额] as sum(periodsToDate([日期].[日期层次结构].[年],[个贷].[日期].[日期层次结...
阅读(1538) 评论(0)

SSAS发布到IIS

上一章我们介绍了一个简单的多维数据集模型的建立,他可以发布到本机的AS服务中,并在本机用SQL客户端连接,但是还不能供其他机器访问。本章我们介绍如何通过web服务来把分析服务发布到网络中,来供其他客户端联机分析,这些客户端包括SQLServer、ADOMD.NET组件和Excel等工具。        分析服务器上需要安装IIS,我这里是6.0,下面是整个配置过程。...
阅读(2429) 评论(0)

[SQL2005 BI] 数据级权限解决方案

BI数据分析是目前企业的热门应用,而对企业来说,权限控制是非常重要的,尤其是作为决策用的企业报表。目前基于微软SQL Server体系的BI架构为Integration Services + Analysis Service + Reporting Services,Integration Services和Analysis都属于应用后台的服务,不会在用户前端展现,其权限控制体系不在我们这篇文章的...
阅读(2801) 评论(0)
66条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:118710次
    • 积分:1407
    • 等级:
    • 排名:千里之外
    • 原创:3篇
    • 转载:63篇
    • 译文:0篇
    • 评论:16条