python处理一亿条数据_Python 处理分析 14 亿条数据实战

最新推荐文章于 2021-02-11 04:14:35 发布

weixin_39607447

最新推荐文章于 2021-02-11 04:14:35 发布

阅读量382

点赞数 1

文章标签： python处理一亿条数据 python数据平滑处理怎么用Python写出随时间变化的字

原文地址：Analysing 1.4 billion rows with python
原文作者：Steve Stagg
译文出自：掘金翻译计划
本文永久链接：https://juejin.im/post/5aceae206fb9a028d2084fea
译者：Ryden Sun
校对者：luochen1992 allen

你用 Python 处理过的最大数据集有多大？我想大概不会超过上亿条吧，今天分享一个用 Python 处理分析 14 亿条数据的案例。

这份 14 亿条数据集来自 Google Books ，由 Google Ngram viewer 生成，根据书本印刷的每一个年份，记录了一个特定单词或词组在谷歌图书的使用量。数据集中有成千上百万的书，时间上涵盖了从 16 世纪到 2008 年。可以绘制出单词使用量随时间的变化，比如查询「Python 」在历史中出现的频率。

数据集可以免费从这里下载：

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

下面使用 Python 的 PyTubes 数据库来加载上面的数据集，然后分析生成上面这样一张图。PyTubes 是一个专门用来加载大数据源的库。

1-gram 的数据集在硬盘上可以展开成为 27 Gb 的数据，这在读入 python 时是一个很大的数据量级。Python可以轻易地一次性地处理千兆的数据，但是当数据是损坏的和已加工的，速度就会变慢而且内存效率也会变低。

总的来说，这 14 亿条数据（1,430,727,243）分散在 38 个源文件中，一共有 2 千 4 百万个（24,359,460）单词（和词性标注，见下方），计算自 1505 年至 2008 年。

当处理 10 亿行数据时，速度会很快变慢。并且原生 Python 并没有处理这方面数据的优化。幸运的是，numpy 真的很擅长处理大体量数据。使用一些简单的技巧，我们可以使用 numpy 让这个分析变得可行。

在 python/numpy 中处理字符串很复杂。字符串在 python 中的内存开销是很显著的，并且 numpy 只能够处理长度已知而且固定的字符串。基于这种情况，大多数的单词有不同的长度，因此这并不理想。

加载数据集

下面所有的代码/例子都是运行在 8 GB 内存 的 2016 年的 Macbook Pro。如果硬件或云实例有更好的 ram 配置，表现会更好。

1-gram 的数据是以 tab 键分割的形式储存在文件中，看起来如下：

1Python 1587 4 2
2Python 1621 1 1
3Python 1651 2 2
4Python 1659 1 1

每一条数据包含下面几个字段：

11. Word
22. Year of Publication
33. Total number of times the word was seen
44. Total number of books containing the word

为了按照要求生成图表，我们只需要知道这些信息，也就是：

11. 这个单词是我们感兴趣的？
22. 发布的年份
33. 单词使用的总次数

通过提取这些信息，处理不同长度的字符串数据的额外消耗被忽略掉了，但是我们仍然需要对比不同字符串的数值来区分哪些行数据是有我们感兴趣的字段的。这就是 pytubes 可以做的工作：

 1import tubes
 2
 3FILES = glob.glob(path.expanduser("~/src/data/ngrams/1gram/googlebooks*"))
 4WORD = "Python"
 5one_grams_tube = (tubes.Each(FILES)
 6    .read_files()
 7    .split()
 8    .tsv(headers=False)
 9    .multi(lambda row: (
10        row.get(0).equals(WORD.encode('utf-8')),
11        row.get(1).to(int),
12        row.get(2).to(int)
13    ))
14)

差不多 170 秒（3 分钟）之后， onegrams_ 是一个 numpy 数组，里面包含差不多 14 亿行数据，看起来像这样（添加表头部为了说明）：

 1╒═══════════╤════════╤═════════╕
 2│   Is_Word │   Year │   Count │
 3╞═══════════╪════════╪═════════╡
 4│         0 │   1799 │       2 │
 5├───────────┼────────┼─────────┤
 6│         0 │   1804 │       1 │
 7├───────────┼────────┼─────────┤
 8│         0 │   1805 │       1 │
 9├───────────┼────────┼─────────┤
10│         0 │   1811 │       1 │
11├───────────┼────────┼─────────┤
12│         0 │   1820 │     ... │
13╘═══════════╧════════╧═════════╛

从这开始，就只是一个用 numpy 方法来计算一些东西的问题了：

每年单词总使用量

谷歌展示了每一个单词出现的百分比（某个单词在这一年出现的次数/所有单词在这一年出现的总数），这比仅仅计算原单词更有用。为了计算这个百分比，我们需要知道单词总量的数目是多少。

幸运的是，numpy让这个变得十分简单：

 1last_year = 2008
 2YEAR_COL = '1'
 3COUNT_COL = '2'
 4year_totals, bins = np.histogram(
 5    one_grams[YEAR_COL],
 6    density=False,
 7    range=(0, last_year+1),
 8    bins=last_year + 1,
 9    weights=one_grams[COUNT_COL]
10)

绘制出这个图来展示谷歌每年收集了多少单词：

很清楚的是在 1800 年之前，数据总量下降很迅速，因此这回曲解最终结果，并且会隐藏掉我们感兴趣的模式。为了避免这个问题，我们只导入 1800 年以后的数据：

 1one_grams_tube = (tubes.Each(FILES)
 2    .read_files()
 3    .split()
 4    .tsv(headers=False)
 5    .skip_unless(lambda row: row.get(1).to(int).gt(1799))
 6    .multi(lambda row: (
 7        row.get(0).equals(word.encode('utf-8')),
 8        row.get(1).to(int),
 9        row.get(2).to(int)
10    ))
11)

这返回了 13 亿行数据（1800 年以前只有 3.7% 的的占比）

Python 在每年占比百分数

获得 python 在每年的占比百分数现在就特别的简单了。

使用一个简单的技巧，创建基于年份的数组，2008 个元素长度意味着每一年的索引等于年份的数字，因此，举个例子，1995 就只是获取 1995 年的元素的问题了。

这都不值得使用 numpy 来操作：

1word_rows = one_grams[IS_WORD_COL]
2word_counts = np.zeros(last_year+1)
3for _, year, count in one_grams[word_rows]:
4    word_counts[year] += (100*count) / year_totals[year]

绘制出 word_counts 的结果：