python爬取28万足球运动员数据,告诉你中国队为什么不能出线

中国队又没能在世界杯中出线,对此我准备从球员层面探求一下原因,意图通过数据分析拯救中国足球.

一、数据抓取

使用python暴力抓取懂球帝上的球员数据,如下图:
球员数据
主要包括球员基本信息,以及各项能力得分。

import requests
import time
import pymysql
from bs4 import BeautifulSoup

user_agent = 'Your user_agent'
headers = {'User-Agent':user_agent}

coon = pymysql.connect(
    host='localhost',
    user='root',
    password='123456',
    db='tset',
    port=3306
)
cur = coon.cursor()
sql = """
    insert into player_test (cn_name,en_name,player_img,club,pos,num,country,age,birthday,height,weight,foot,score,speed,power,defense,dribble,pass_ball,shoot)
                VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
"""

url = 'https://www.dongqiudi.com/player/50025255.html'
html = requests.get(url=url, headers=headers)
soup = BeautifulSoup(html.text, 'lxml')
img_src = soup.find_all('img')[1].attrs['src']

if img_src == 'https://static1.dongqiudi.com/web-new/web/images/icon_error.png':
    pass
else:
    # 个人信息
    cn_name = soup.h1.text  # 姓名
    en_name = soup.find('span',class_='en_name').text  # 英文名
    player_img = soup.find('img',class_='player_img').attrs['src&
  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
Python是一种非常适合进行网络爬虫的编程语言,可以用它来爬取足球联赛数据。以下是一种常见的方法来实现这个目标: 1. 确定目标网站:首先,你需要确定你想要爬取数据足球联赛网站。一些常见的足球数据网站包括:ESPN、BBC Sport、SofaScore等。 2. 分析网页结构:使用开发者工具或者查看网页源代码,分析目标网站的网页结构。找到包含所需数据的HTML元素和标签。 3. 使用Python库进行爬取Python有很多强大的库可以用来进行网络爬虫,比如Requests和BeautifulSoup。使用Requests库发送HTTP请求获取网页内容,然后使用BeautifulSoup库解析HTML并提取所需数据。 4. 数据处理和存储:一旦你成功地从网页中提取到了足球联赛数据,你可以对数据进行处理和清洗,然后将其存储到数据库或者文件中,以便后续分析和使用。 下面是一个简单的示例代码,演示了如何使用Python爬取足球联赛数据: ```python import requests from bs4 import BeautifulSoup # 发送HTTP请求获取网页内容 url = "https://www.example.com/football" response = requests.get(url) html_content = response.text # 使用BeautifulSoup解析HTML soup = BeautifulSoup(html_content, "html.parser") # 提取所需数据 data = [] matches = soup.find_all("div", class_="match") for match in matches: home_team = match.find("span", class_="home-team").text away_team = match.find("span", class_="away-team").text score = match.find("span", class_="score").text data.append({"home_team": home_team, "away_team": away_team, "score": score}) # 处理和存储数据 for match_data in data: print(match_data) # 在这里可以对数据进行进一步处理或者存储到数据库/文件中 ``` 请注意,以上代码只是一个简单的示例,实际的爬虫过程可能会更加复杂,需要根据目标网站的具体结构和数据格式进行相应的调整。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值