第四章:Hbase Shell--Apache HBase TM Reference Guide

Apache HBase Shell是(J)Ruby的IRB,添加了一些HBase特定命令。 你可以在IRB中做任何事情,你应该可以在HBase Shell中做。 要运行HBase shell,请执行以下操作: $ ./bin/hbase shell 键入help,然后键入以查看shell命令...

2019-06-09 10:23:08

阅读数 17

评论数 0

第三章:Hbase升级--Apache HBase TM Reference Guide

升级时无法跳过主要版本。 如果要从版本0.98.x升级到2.x,则必须先从0.98.x升级到1.2.x,然后再从1.2.x升级到2.x. 查看Apache HBase配置,特别是Hadoop。 熟悉支持和测试期望。 Hbase版本及其兼容性 Aspirational Semantic Versio...

2019-06-06 10:51:07

阅读数 40

评论数 0

第二章:Hbase配置--Apache HBase TM Reference Guide

本章对“入门”一章进行了扩展,以进一步说明Apache HBase的配置。 请仔细阅读本章,特别是基本先决条件,以确保您的HBase测试和部署顺利进行。 熟悉支持和测试期望。 配置文件 Apache HBase使用与Apache Hadoop相同的配置系统。所有配置文件都位于conf /目录中,需...

2019-06-05 09:23:42

阅读数 17

评论数 0

第一章:开始进入Hbase--Apache HBase TM Reference Guide

介绍 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了...

2019-06-03 10:24:01

阅读数 21

评论数 0

第14章 数据分析案例--Python for Data Analysis 2nd

本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。 案例数据集可以在Github仓库找到,见第一章。 来自Bitly的USA.gov数据 ...

2019-05-31 09:20:06

阅读数 77

评论数 0

第13章 Python建模库介绍--Python for Data Analysis 2nd

本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。 开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为...

2019-05-31 09:15:58

阅读数 53

评论数 0

第12章 pandas高级应用--Python for Data Analysis 2nd

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。 分类数据 这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计...

2019-05-31 09:14:58

阅读数 35

评论数 0

第11章 时间序列--Python for Data Analysis 2nd

时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时...

2019-05-31 09:12:54

阅读数 47

评论数 0

第10章 数据聚合与分组运算--Python for Data Analysis 2nd

对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。 关系型数据库和SQL(...

2019-05-31 08:56:47

阅读数 22

评论数 0

第09章 绘图和可视化--Python for Data Analysis 2nd

信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http:/...

2019-05-31 08:56:28

阅读数 26

评论数 0

第08章 数据规整:聚合、合并和重塑--Python for Data Analysis 2nd

在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。 层次化索引 层次化索引(hierarchi...

2019-05-30 16:20:23

阅读数 26

评论数 0

第07章 数据清洗和准备--Python for Data Analysis 2nd

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)...

2019-05-30 16:18:54

阅读数 21

评论数 0

第06章 数据加载、存储与文件格式--Python for Data Analysis 2nd

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。 读写文本格式的数据 pandas提供了一些用于...

2019-05-30 16:17:11

阅读数 22

评论数 0

第05章 pandas入门--Python for Data Analysis 2nd

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构...

2019-05-30 16:15:48

阅读数 19

评论数 0

第04章 NumPy基础:数组和矢量计算--Python for Data Analysis 2nd

NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函...

2019-05-30 16:13:41

阅读数 70

评论数 0

第03章 Python的数据结构、函数和文件--Python for Data Analysis 2nd

本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。 我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后...

2019-05-30 16:01:24

阅读数 22

评论数 0

第02章 Python语法基础,IPython和Jupyter Notebooks--Python for Data Analysis 2nd

当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。2017年,数据科学、数据分析和机器学习的资源已经很多,原来通用的科学计...

2019-05-30 15:59:55

阅读数 33

评论数 0

第01章 准备工作 --Python for Data Analysis 2nd

下载本书:http://www.jianshu.com/p/fad9e41c1a42 GitHub(欢迎提pull request,GitHub上的md文件可以用来自制电子书,pdf、mobi、epub格式的都行): https://github.com/iamseancheney/python_...

2019-05-30 15:56:28

阅读数 24

评论数 0

第十四章:Cassandra部署与整合--Cassandra:The Definitive Guide 2nd Edition

在这个,我们的最后一章,是时候分享一些最后的建议,因为你正在努力在生产中部署Cassandra。我们将讨论在规划部署时要考虑的选项,并探讨在各种云环境中部署Cassandra的选项。我们将关注一些与Cassandra相得益彰的技术。 规划群集部署 Cassandra的成功部署始于良好的规划。您将需...

2019-05-30 15:52:15

阅读数 25

评论数 0

第十三章:Cassandra安全--Cassandra:The Definitive Guide 2nd Edition

使数据可访问一直是大数据运动的关键原则之一,在数据分析方面取得了巨大进步,并为企业,学术界和公众带来了实实在在的好处。与此同时,随着安全性和隐私需求的增长,这种数据可访问性也处于紧张状态。互联网规模系统暴露于不断变化的攻击集合中,这些系统保存的数据是最常见的目标。我们都知道多次引人注目的违规行为导...

2019-05-30 15:10:40

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭