最近玩了下Python和AI,AI有时确实可以帮你优化很多代码逻辑,但是有时真的也很2,总体来说我觉得利大于弊,挺好挺有用的,还是非常赞的,今天主要来验证下AI到底能否干得过"主任"(大家都知道这个主任是谁哈,哈哈~~~),结论在文章最后告知......
软件介绍
介绍下我使用的环境(Anaconda + Pycharm),因为本地有很多python环境,所以pycharm直接使用anaconda自带的python,其实使用安装的python环境都是一样的,顺便推荐下好用的几个地址,搞python的都应该会用到:
-
清华大学开源软件镜像站
清华大学开源软件镜像站 | Tsinghua Open Source Mirror
-
Python镜像源
访问国外网址有时候真的很慢,我一般都用清华大学的,下载还是很给力的阿里云 (Aliyun)
https://mirrors.aliyun.com/pypi/simple/
中国科技大学 (USTC)
https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣 (Douban)
https://pypi.douban.com/simple/
清华大学 (TUNA)
https://pypi.tuna.tsinghua.edu.cn/simple/
华中科技大学 (HUST)
https://pypi.hustunique.com/simple/
正文开始
从福彩双色球网址爬取数据,也可能是我本地网络不太好,有时会出现获取不到的情况,所以加了一个循环5次获取,如果5次还获取不到就跳过,运行之后虽然慢点,但是所有的数据都可以爬取到,还有一个奇葩数据,有近10期会多出一列(结果查看网页数据,确实多一个号,这10期数据自己手动清空一下,如果不想手动删除,完善下代码处理也行的~~~)
爬数据
python爬虫代码如下:虽然我是保存的.csv文件,但是本地转成了.xlsl来用,因为csv打开总是提示数据格式不对,可能我本地软件的问题
import requests
from bs4 import BeautifulSoup
import os
import time
def get_data(url, retries=5):
for _ in range(retries):
try:
response = requests.get(url, timeout=10)
response.raise_for_status()
return response.text
except requests.RequestException as e: