使用collections.Counter创建直方图数据,并遵循给定的示例here,即:from collections import Counter
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Read CSV file, get author names and counts.
df = pd.read_csv("books.csv", index_col="id")
counter = Counter(df['author'])
author_names = counter.keys()
author_counts = counter.values()
# Plot histogram using matplotlib bar().
indexes = np.arange(len(author_names))
width = 0.7
plt.bar(indexes, author_counts, width)
plt.xticks(indexes + width * 0.5, author_names)
plt.show()
使用此测试文件:$ cat books.csv
id,author,title,language
1,peter,t1,de
2,peter,t2,de
3,bob,t3,en
4,bob,t4,de
5,peter,t5,en
6,marianne,t6,jp
上面的代码创建以下图形:
编辑:
您添加了一个辅助条件,其中author列可能包含多个空格分隔的名称。以下代码处理此问题:from itertools import chain
# Read CSV file, get
df = pd.read_csv("books2.csv", index_col="id")
authors_notflat = [a.split() for a in df['author']]
counter = Counter(chain.from_iterable(authors_notflat))
print counter
对于本例:$ cat books2.csv
id,author,title,language
1,peter harald,t1,de
2,peter harald,t2,de
3,bob,t3,en
4,bob,t4,de
5,peter,t5,en
6,marianne,t6,jp
它印出来了$ python test.py
Counter({'peter': 3, 'bob': 2, 'harald': 2, 'marianne': 1})
请注意,此代码只起作用,因为字符串是可iterable的。
这段代码基本上没有panda,除了引导DataFramedf的CSV解析部分。如果需要熊猫的默认绘图样式,那么mentioned线程中也有一个建议。