- 博客(16)
- 资源 (30)
- 收藏
- 关注
转载 大数据安全: Hadoop安全模型的演进
敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决策,因此这一过程中的安全问题变得愈发重要。与此同时,HIPAA和其他隐私保护法之类的法律法规也要求组织加强对这些数据集的访问控制和隐私限制。来自内部和外部攻击者的网络安全漏洞与日俱增,通常都要数月之后才能发现,而那些受此影响的人正在为此付出代价。没能对他们的数据做
2014-07-31 16:53:28 1238
原创 确保Hadoop大数据安全的十大策略
Dataguise日前公布了实施Hadoop的十大最佳做法。专业人员可以通过遵循管理隐私风险,数据和安全管理的程序,杜绝敏感数据外泄,降低风险状况,从而更好地满足合规性要求。通过财富200强企业中的Hadoop安全部署经验总结,Dataguise开发出以下十大建议,以确保大型和复杂多样环境下的数据安全。信息技术工具的日益更新和功能的不断优化成熟,使得大数据的使用变得更具有可行性。然
2014-07-31 16:50:53 1733
原创 大数据时代如何保证hadoop安全
众所周知我们处在一个数据爆炸的时代,越来越多的信息被制造出来,数据量大而且种类复杂。据统计,未来几年,智慧城市、智能交通、智慧医疗以及物联网所产生的数据也会铺天盖地而来。这么多的数据中蕴含着非常多的有价值信息,但是我们如何将这些信息提取出来呢?现在通常的方法是利用Hadoop来做,但是,Hadoop其实也不是那么安全。在昨天趋势科技召开的CIO峰会上,趋势科技全球首席技术官Jon Clay详细阐述
2014-07-31 16:42:42 821
原创 Hadoop存在巨大数据安全风险的理由
大数据分析处理日渐成为企业的主流业务,而Hadoop了成为了大数据处理的主要工具,但它却存在安全风险。近日,国外媒体列出了Hadoop存在巨大数据安全风险的十个理由。 1、Hadoop不是专为企业数据而生 像许多开拓性的IT技术(如TCP/IP或Unix)一样,Hadoop的概念并非来自企业用户,企业安全更是无从谈起。使用Hadoop的最初目的是 管理公开可用的信息,,如Web链接。其
2014-07-31 16:36:59 1520
原创 大数据安全之hadoop九大技巧
当企业转变为数据驱动的机器时,其潜力是巨大的:企业所拥有的数据可能成为获得竞争优势的关键。因此,企业的数据和基础设施的安全也变得比以往任何时候都重要。在许多情况下,企业或组织都可能得到Forrester所说的“有毒的数据”。例如,一家无线公司正在收集谁登录哪一个天线塔、他们在线逗留多长时间、他们使用多少数据、他们是在移动还是处于静止状态等数据,这些数据可用来了解用户行为的状况。这家无线公司
2014-07-31 15:16:40 1200
原创 hadoop深入研究(一)——hdfs介绍
hdfs设计原则1.非常大的文件:这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据2.流式数据访问:基于一次写,多次读。3.商用硬件: hdfs的高可用是用软件来解决,因此不需要昂贵的硬件来保障高可用性,各个生产商售卖的pc或者虚拟机即可。hdfs不适用的场景1.低延迟的数据访问 hdf
2014-07-31 14:51:09 652
原创 如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。 伴随Sp
2014-07-29 21:54:08 793
原创 Hadoop-包的功能分析
PackageDependencestool提供一些命令行工具,如DistCp,archivemapreduceHadoop的Map/Reduce实现filecache提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度f
2014-07-29 09:34:30 1068
转载 Hadoop-IPC模型
IPC实现RPC的一种方法,具有快速、简单的特点。 它不像Sun公司提供的标准RPC包,基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。使用模型采用客户/服务器模型Se
2014-07-29 09:32:52 698
转载 LZOP解压查看文件
我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。 之前要查看已经put到HDFS的
2014-07-25 17:47:14 3820
原创 lzop如何查看文件大小
我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。 之前要查看已经put到HDFS的
2014-07-25 17:41:32 417
原创 互联网/电子商务数据分析师的十大误区
对于火爆的互联网/电子商务行业,我们需要的是建立起通过数据驱动的商业模式。即需要的是有经验的数据分析师,对于运营数据进行解读和分析——确定网站和客户是否为正常的运行,同时发掘其中存在的问题。以下是数据分析师经常犯的错误列表:
2014-07-15 09:20:14 947
原创 linux之ls -l命令详解
ls -l /etc/passwd-rw-r--r-- 1 root root 1146 May 28 20:48 /etc/passwd第一列:文件类型和权限第二列:i节点,硬件连接数第三列:用户第四列:用户组第五列:文件大小第六列:最近一次修改时间mtime第七列:文件或者目录名上面第一列: -rw-r--r--1列:文件类型 (-普通文件, d目录, l链接文件)2-
2014-07-01 11:50:12 2432
原创 linux常用目录介绍
/bin 所有用户都能执行的命令/dev 设备特殊文件/etc 系统管理和配置文件/home 用户主目录的基点/sbin 系统管理员才能执行的命令/tmp 公用的临时文件存储点/root 系统管理员的主目录/mnt 系统提供这个目录是让用户临时挂载其他的文件系统/var 某些大文件的溢出区,比方说各种服务的日志文件
2014-07-01 11:49:03 528
原创 linux常用命令
man: 查询帮助文档ls: 列出目前下的所有内容 (a, l)cd: 变换工作目录(~, . , .., -)pwd: 显示当前目录touch: 创建一个空文件或者改变创建时间mkdir: 创建一个目录(p)rmdir: 删除一个空目录(p)rm: 删除文件和目录 (rf)cp: 复制文件和目录(rf)mv: 移动文件和目录cat: 显示一个文件内容head: 显示文件前N
2014-07-01 11:44:07 516
原创 find命令
Linux下find命令find . -name "文件名"//从当前目录下查找find / -name "文件名"//从根目录下查找find ~ -name 文件名//从用户登录进来目录下查找
2014-07-01 11:41:10 505
数据库原理实验全套源码_DBMS模拟环境_VC6源码
2011-11-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人