作为一名悠久但是不资深的彩民,这些年被机选坑掉了不少钱,以至于我怀疑这些机选的号码是否在一个名为“选不中”的集合中,每次机选的时候被“随机选出”。所以我决定将大数据学以致用,用“科学”的方法买彩票。
第一章 数据清洗
第一步,下载“大乐透”历史所有号码(从2003年2月23日到2019年7月4日),存在电脑D盘中,命名为111。用pandas库读取数据,以数据框dataframe形式引用。
import pandas as pd
df=pd.read_excel('d:\\111.xls')
df
结果:
*后面还有数据,但是截图无法全部显示,下面同理
第二步,切片:把数据分成篮球组和红球组,统计出篮球红球中各位数出现次数。
import pandas as pd
df=pd.read_excel('d:\\111.xls')
df_all=df[['篮球1','篮球2','篮球3','篮球4','篮球5','篮球6','红球']] #数据帧(dataframe)格式
df_blue=df[['篮球1','篮球2','篮球3','篮球4','篮球5','篮球6']]
df_red=df[['红球']]
df_all_array=df_all.values #数据帧转化为二维数组格式
df_blue_array=df_blue.values
df_red_array=df_red.values
all_blue=[] #定义空一维数组
all_red=[]
dic_blue={} #定义空字典 用来存放蓝红球各个数出现频率
dic_red={}
for each in df_blue_array: #将二维数组转化为一维数组
for each in each:
all_blue.append(each)