023-机器学习背后的思维-针对入门小白的概念算法及工具的朴素思考

本文介绍了pandas作为Python数据处理工具的基本概念,包括DataFrame和Series,并通过例子说明如何处理数据。同时,解释了CSV文件的结构,它是数据存储的常见格式,通常用于导入和导出数据。
摘要由CSDN通过智能技术生成

9.1 输入数据准备与pandas

pandas 是一个输入数据处理的Python工具包。 它提供了以「列」为处理单元的方 便好用的 API 函数, 可供你方便的读取普通文本型的数据。 其中, pandas 的两个数 据结构上的概念〸分重要。 1

• DataFrame (数据框)

• Series (数据序列)

DataFrame 其实类似于一个有表头的 Excel 的表格。 每个 DataFrame 有行(row) 和列(column)之分。 每一个列是有名字的,但是行没有名字。

对于列的术语, pandas定义时, 它没有用最常用的英文单词 Column, 而是用 「Series」这个单词。 这个英文单词的单数与复数都长一个样。 所以,一列也是一个 Series。 别把大家搞糊涂了。

总之,一个 DataFrame 可以包括一个或多个 Series, 且在 DataFrame 中的每一个 Series要有一个字符串名字, 如「House Area」。 注意,单独的 Series 没字符串名字, 只有程序代码意义上的变量名, 如 area。 具体的用法,举个例子让大家看一下,如 下。

import pandas as pd

area = pd.Series([100, 89, 160])
bedroom = pd.Series([3, 2, 4])
price = pd.Series([30, 25, 40])

houses_dataframe = pd.DataFrame({ 'House Area': area, 
	'Bedroom Number': bedroom, 'Sale Price': price})

上面的例子,在实际工作中使用机会不多,主要让初学者有个印象。 最常见的情 况是从一个所谓的 CSV 的文本文件中直接读到一个DataFrame中。

houses_dataframe = pd.read_csv("c:\data\input\house.csv")

CSV(comma-separated values) 文件, 顾名思义,就是文件内容的每一行中有多个 值, 它们之间用逗号隔开。如下所示, 注意 CSV 的第一行是列的名字,用英文双引号 引起来。

"HouseArea", "BedroomNumber", "SalePrice"
100,3,30
89,2,25
160,4,40

024-机器学习背后的思维-针对入门小白的概念算法及工具的朴素思考


  1. 为了避免翻译不当会引起的误解, 本文只在中文翻译〸分准确的情况下使用中文翻译术语, 其它 一律用术语的英文原文。 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值