爬虫能用到,将爬到的字典转为dataframe格式

博客主要围绕爬虫展开,介绍了将爬到的字典转换为DataFrame格式的相关内容,这在爬虫数据处理中十分实用,能帮助更好地对数据进行分析和操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import pandas as pd                         #导入pandas包
data = pd.read_csv("2.csv")             #读取csv文件
#print (data.head(5))
#print(data.columns)
#print(data.shape)
order = ['time', 'match', 'home', 'score', 'nohome', 'first_half']
data=data[order]
#print (data['score'])






def getlistnum(li):  # 这个函数就是要对列表的每个元素进行计数
    li = list(li)
    #print(li)

    set1 = set(li) # 利用集合  把列表中重合的数据删掉
    #print("78787878")
    #print(set1)
    dict1 = {}
    dict3={}
    for item in set1:
        #dict1.update({item: li.count(item)})
        dict3.update({item:li.count(item)/215})
    return dict3
#print("**************")
#print(df[1])
#print("******")
col_count = getlistnum(data["score"])  # df[0]指列名为0的列,如果你的列名是字符串就要加引号

print(col_count)
dict=pd.DataFrame.from_dict(col_count,orient='index',columns=['score'])
dict=dict.reset_index().rename(columns={'index':'goal'})
dict.head()
print(dict)

### 使用Python编写爬虫程序抓取航班信息 为了完成这一任务,可以采用两个主要步骤:一是利用`BeautifulSoup`库来获取网页上的航班信息;二是使用`pandas`和`json`库处理可能存在的嵌套结构的数据。 #### 抓取航班信息 对于网络请求部分,通常会用到`requests`库发送HTTP请求,并通过`BeautifulSoup`解析HTML文档。下面是一个简单的例子: ```python import requests from bs4 import BeautifulSoup url = 'http://example.com/flights' # 假设这是目标网站URL response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') flights_info = [] for item in soup.find_all('div', class_='flight-item'): flight_data = { 'airline': item.find(class_='airline').text.strip(), 'flight_number': item.find(class_='flight-number').text.strip(), 'departure_time': item.find(class_='departure-time').text.strip(), 'arrival_time': item.find(class_='arrival-time').text.strip() } flights_info.append(flight_data) ``` 这段代码展示了如何定位页面内的特定元素并提取所需的信息[^2]。 #### 处理嵌套数据 一旦获得了原始的航班信息列表,如果这些信息是以JSON格式返回或者是具有复杂层次结构的对象,则可以通过如下方式将其转化为更易操作的形式: ```python import json import pandas as pd # 将之前收集到的所有航班信息转换成字符串形式的JSON对象 json_string = json.dumps(flights_info) # 解析JSON字符串为字典列表 data_dict = json.loads(json_string) # 利用pandas将嵌套的JSON转为DataFrame以便后续分析 df_flights = pd.json_normalize(data_dict) print(df_flights.head()) # 打印前几条记录查看效果 ``` 此过程实现了从复杂的嵌套型JSON至平面化表格形式的转变,使得数据分析变得更加直观简单[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值