3 使用Spark统计《烈火英雄》相关文章关于评论人性别的占比(请提供完整代码和结果截图5分)。
解析:题目要求用spark,我用了python的方法
round的用法:可四舍五入保留小数
例子:pi = 3.141592653589793
round(pi) #输出整数
round(pi, 2) #保留两位小数输出
round(pi, 3) #保留三位小数输出
format的用法:内置的python字符串格式化方法,可设置百分比格式
例子:a = 0.2345 print('{:.2%}'.format(a)) 结果:23.45%
代码如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdate
from pandas import DataFrame,Series
df = pd.read_csv("new4",sep=',',error_bad_lines=False)
plt.rcParams['font.sans-serif']=['SimHei']
s1 = (df["博主性别"]=='m').sum()
s2 = (df["博主性别"]=='f').sum()
a = round(s1/(s1+s2),4)
b = round(s2/(s1+s2),4)
print("m",s1,"{:.2%}".format(a))
print("f",s2,"{:.2%}".format(b))
结果截图如下: