前言: 本次爬取数据本意为了作为学习决策树,但发现构造特征时因不了解足球赛制,难以构造出较好的特征。如果有小伙伴也对这个感兴趣的话就和我交流交流吧~~
代码:
'''
#get_tata.py
获取uhchina.com的14-15西甲赛况(未作清洗)
关键是观察爬取数据的情况
'''
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
BASE_URL = 'http://www.uhchina.com/2014-2015xijia/{n_lun}lun.htm'
n_lun_limit = 38
title_name = ['Turn','Time'