pandas读取csv将数据转为list方便调用

DataFrame转为list

import pandas as pd
import numpy as np

corpus = pd.read_csv('corpus.csv') # 得到 DataFrame
corpus = np.array(corpus)  # 转换为 ndarray [[1], [2], [3]]
corpus = corpus.reshape(1, len(corpus)).tolist()  # 转换成 List [[1, 2, 3]]
corpus 
### 使用Pandas读取CSV文件并查找特定值的索引 为了实现这一目标,可以按照如下方法操作: #### 安装和导入必要的库 确保已经安装了`pandas`库。如果尚未安装,则可以通过命令`pip install pandas`来完成安装工作[^2]。 ```bash pip install pandas ``` 接着,在脚本中引入该库以便后续调用其功能函数。 ```python import pandas as pd ``` #### 加载CSV数据到DataFrame对象 利用`read_csv()`函数加载本地磁盘上的CSV文档至内存中的DataFrame结构内。这里假设有一个名为`example.csv`的数据集待处理。 ```python df = pd.read_csv('example.csv') ``` 对于某些特殊情况下的CSV文件,可能需要额外设置参数以适应不同的编码方式、字段分隔符或是自定义列头名称等需求。例如当遇到无表头的情况时可采用下面的方式指定不自动解析首行为列标签[^3]。 ```python df = pd.read_csv('no_header_example.csv', header=None) ``` #### 查找特定条件满足的行或列位置 一旦成功创建好DataFrame实例之后,就可以借助布尔索引来定位符合条件记录的位置信息了。比如要找出某列等于给定数值的所有匹配项及其对应的行列坐标。 假设有这样一个场景:想要知道哪几行里存在年龄为30岁的个体;以及这些人的职业类别位于整个表格里的第几个属性上(即列编号)。此时可以用以下代码片段达成目的。 ```python # 假设'age'代表年龄,'occupation'表示职业 rows_with_age_30 = df[df['age'] == 30].index.tolist() column_index_of_occupation = list(df.columns).index('occupation') print(f"Rows where age is 30: {rows_with_age_30}") print(f"Column index of occupation: {column_index_of_occupation}") ``` 上述例子展示了如何基于单个字段筛选出对应的结果集合,并返回它们各自的下标列表形式。当然也可以组合多个逻辑表达式来进行更复杂的查询任务。 #### 处理缺失值和其他注意事项 在实际项目开发过程中经常会碰到含有空缺项目的脏乱数据源。因此建议预先设定好应对策略,像跳过错误条目继续执行下去或者填充默认替代品都是不错的选择之一。 ```python # 跳过错位格式化异常情况 df = pd.read_csv('messy_data.csv', error_bad_lines=False) # 或者用均值填补空白处 mean_value = df.mean().fillna(0) # 对于非数值型特征此步可能会失败需单独考虑 df.fillna(mean_value, inplace=True) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值