用科学的方法做不科学的事情---用大数据选彩票（一）

本文链接：https://blog.csdn.net/weixin_42489752/article/details/96020602

作为一名悠久但是不资深的彩民，这些年被机选坑掉了不少钱，以至于我怀疑这些机选的号码是否在一个名为“选不中”的集合中，每次机选的时候被“随机选出”。所以我决定将大数据学以致用，用“科学”的方法买彩票。

第一章数据清洗

第一步，下载“大乐透”历史所有号码（从2003年2月23日到2019年7月4日），存在电脑D盘中，命名为111。用pandas库读取数据，以数据框dataframe形式引用。

import pandas as pd
df=pd.read_excel('d:\\111.xls')
df

结果：

*后面还有数据，但是截图无法全部显示，下面同理

第二步，切片：把数据分成篮球组和红球组，统计出篮球红球中各位数出现次数。

import pandas as pd
df=pd.read_excel('d:\\111.xls')

df_all=df[['篮球1','篮球2','篮球3','篮球4','篮球5','篮球6','红球']]  #数据帧（dataframe）格式
df_blue=df[['篮球1','篮球2','篮球3','篮球4','篮球5','篮球6']]   
df_red=df[['红球']]

df_all_array=df_all.values                                        #数据帧转化为二维数组格式 
df_blue_array=df_blue.values                                
df_red_array=df_red.values 

all_blue=[]                                                       #定义空一维数组
all_red=[]

dic_blue={}                                                       #定义空字典 用来存放蓝红球各个数出现频率
dic_red={}

for each in df_blue_array:                                        #将二维数组转化为一维数组
    for each in each: 
        all_blue.append(each)