pandas 处理天气/日期相关特征并数值化

最近的项目利用机器学习进行分析,对于特征的选取,尝试使用天气相关的数据。

利用pandas,对于得到的过去两三年的天气情况进行处理。


历史天气获取地址:http://tianqi.2345.com/wea_history/71146.htm

此处展现的是上海浦东地区过去两年的天气情况,如下:



由于数据可以直接复制粘贴比爬虫获取要快速,所以直接粘贴到excel中,进行分析。

1.分别读入三年的天气数据,并合并成一张表,代码如下:
#导入三年天气合并
w_2016=pd.read_excel('2016天气.xlsx')
w_2017=pd.read_excel('2017天气.xlsx')
w_2018=pd.read_excel('2018天气.xlsx')
df2=w_2016.append(w_2017).append(w_2018)

表格样式如下:


2.对天气,风向风力,空气质量指数进行详细拆分

拆分为:最好天气,最坏天气,风向,风力,空气质量 等列,具体处理

  • 7
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
对于天气预报数据爬取,爬取到的数据需要进行清洗和处理,以确保数据的准确性和可用性。以下是一个示例: 1. 数据清洗:去除重复数据、缺失值、异常值等。 ```python import pandas as pd # 读取爬取到的数据文件 df = pd.read_csv('weather_data.csv') # 去除重复数据 df.drop_duplicates(inplace=True) # 去除缺失值 df.dropna(inplace=True) # 去除异常值 df = df[(df['temperature'] > -50) & (df['temperature'] < 50)] # 保存处理后的数据 df.to_csv('cleaned_weather_data.csv', index=False) ``` 2. 数据处理:将数据转换为需要的格式,如日期格式、数值格式等。 ```python import pandas as pd # 读取爬取到的数据文件 df = pd.read_csv('weather_data.csv') # 转换日期格式 df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d %H:%M:%S') # 转换数值格式 df['temperature'] = df['temperature'].astype(int) # 保存处理后的数据 df.to_csv('processed_weather_data.csv', index=False) ``` 对于论文数据清洗,也需要对数据进行清洗和处理,以确保数据的准确性和可用性。以下是一个示例: 1. 数据清洗:去除重复数据、缺失值、异常值等。 ```python import pandas as pd # 读取爬取到的数据文件 df = pd.read_csv('paper_data.csv') # 去除重复数据 df.drop_duplicates(inplace=True) # 去除缺失值 df.dropna(subset=['title', 'authors', 'year'], inplace=True) # 去除异常值 df = df[(df['year'] >= 2000) & (df['year'] <= 2021)] # 保存处理后的数据 df.to_csv('cleaned_paper_data.csv', index=False) ``` 2. 数据处理:将数据转换为需要的格式,如日期格式、数值格式等。 ```python import pandas as pd # 读取爬取到的数据文件 df = pd.read_csv('paper_data.csv') # 转换日期格式 df['publication_date'] = pd.to_datetime(df['publication_date'], format='%Y-%m-%d') # 保存处理后的数据 df.to_csv('processed_paper_data.csv', index=False) ``` 需要注意的是,在数据清洗和处理过程中,需要根据实际情况进行相应的处理,以确保数据的准确性和可用性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值