Python 数据分析实战:解析 2025 年人工智能在多领域的渗透与发展

目录

一、案例背景

二、代码实现

2.1 数据收集

2.2 数据探索性分析

2.3 数据清洗

2.4 数据分析

2.4.1 人工智能技术热点追踪

2.4.2 人工智能在各领域应用程度分析

2.4.3 人工智能市场增长预测与分析

三、主要的代码难点解析

3.1 数据收集

3.2 数据清洗 - 市场数据异常值处理

3.3 数据分析 - 人工智能技术热点追踪

3.4 数据分析 - 人工智能在各领域应用程度分析

3.5 数据可视化

四、可能改进的代码

4.1 数据收集改进

4.2 数据清洗改进

4.3 数据分析改进


一、案例背景

步入 2025 年,人工智能已毫无争议地成为全球科技发展的核心驱动力,广泛且深入地渗透到各个行业领域。从交通出行中 DeepSeek 大模型助力交通管理与智能载运工具的革新,到教育行业里依据学生学习情况提供个性化学习方案,再到医疗领域辅助疾病诊断、加速药物研发,人工智能正重塑着行业格局。通过 Python 进行全面且深入的数据分析,能够精准洞察人工智能在不同领域的应用现状、发展趋势以及面临的挑战,为行业从业者、投资者、政策制定者提供关键决策依据,助力各方在人工智能驱动的时代浪潮中抢占先机。

二、代码实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from bs4 import BeautifulSoup

2.1 数据收集

数据来源涵盖专业科技资讯平台(如 IEEE Spectrum、Wired 等)、行业报告发布机构(如 Gartner、IDC 等)、政府部门发布的政策文件以及各领域应用平台数据等。

  • 从科技资讯平台收集人工智能相关文章数据,以 IEEE Spectrum 为例:

url = 'https://spectrum.ieee.org/search?query=artificial+intelligence'
headers = {
    'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers = headers)
soup = BeautifulSoup(response.text, 'html.parser')

article_data = []
article_items = soup.find_all('article', class_='list-item')
for item in article_items:
    title = item.find('h2').text.strip()
    summary = item.find('p').text.strip()
    publish_time = item.find('time')['datetime']
    article_data.append({'Title': title, 'Summary': summary, 'Publish_Time': publish_time})

article_df = pd.DataFrame(article_data)

  • 从行业报告发布机构获取人工智能市场规模等数据,假设通过其提供的 API 获取(实际需依 API 文档开发):

# 示例结构,实际实现需依API文档
import json
url = 'https://api.gartner.com/ai_market_data'
headers = {
    'Authorization': 'your_api_key',
    'Content - Type': 'application/json'
}
response = requests.get(url, headers = headers)
if response.status_code == 200:
    market_data = json.loads(response.text)
    market_df = pd.DataFrame(market_data)
else:
    print('Failed to get market data')

2.2 数据探索性分析

# 查看文章数据基本信息
print(article_df.info())

# 查看市场数据基本信息
print(market_df.info())

# 统计文章发布时间分布
article_df['Publish_Time'] = pd.to_datetime(article_df['Publish_Time'])
article_df['Month'] = article_df['Publish_Time'].dt.month
month_count = article_df['Month'].value_counts().sort_index()

plt.figure(figsize=(12, 6))
sns.barplot(x = month_count.index, y = month_count.values)
plt.title('Distribution of AI Article Publication Months')
plt.xlabel('Month')
plt.ylabel('Article Count')
plt.show()

# 查看人工智能市场规模随时间变化趋势(假设市场数据有时间和规模字段)
market_df['Time'] = pd.to_datetime(market_df['Time'])
plt.figure(figsize=(12, 6))
sns.lineplot(x = 'Time', y = 'Market_Size', data = market_df)
plt.title('Trend of AI Market Size')
plt.xlabel('Time')
plt.ylabel('Market Size (in billions)')
plt.show()

2.3 数据清洗

# 文章数据清洗
# 去除重复文章(根据标题判断)
article_df = article_df.drop_duplicates(subset='Title')

# 处理缺失值
article_df.dropna(inplace = True)

# 市场数据清洗
# 检查数据完整性,处理异常值
market_df = market_df[(market_df['Market_Size'] > 0) & (market_df['Market_Size'].notnull())]

2.4 数据分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萧十一郎@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值