每日学习数据获取,从csv,TxT,Excel,JSON,HTML,数据库,Word和PDF中获取数据。

#1.怎么从CSV和TXT中获取数据?

       什么是csv和TXT文件?

常见的文本格式,以纯文本形式存储数据。

pandas中用read_csv()函数。语法格式:read_csv(filepath_or_buffer,sep","  header="infer",names=None , encoding = None,,,)

filepath_or_buffer:表示文件的路径,,sep"," 表示指定的分隔符,header="infer"指定哪一行数据作为对象的列索引,names=None 对象的列索引列表,encoding:指定的编码格式。

1.例子:关于csv文件

import pandas as pd
evaluation_data = pd.read_csv("phone.csv",enconding="gbk")
print(type(evalution_data))
print(evalution_data)

2.例子:读取TXT文件中的数据

txt_data = pd.read_csv("itheima_books.txt",encoding="utf8")
print(txt_data)

4.2 从Excel文件读取数据

pandas中的read_excel()函数读取Excel文件的数据,语法格式:pandas.read_excel(io,sheet_name=0,header=0,name=None,index_col=None)

io:表示文件的路径。sheet_name:表示读取的工作表。header:指定文件中哪一行数据作为DataFrame类对象。names:表示DataFrame类对象中索引的列表。index_col将Excel文件中的列标题作为DataFrame类对象的行索引。

import pandas as pd
excel_data = pd.read_excel("Athletes_info.xlsx", sheet_name=2)
excel_data.head(5)#显示前5行数据

4.3 从JSON文件读取数据

1.是什么?

是一种轻量级的数据交换格式,.json

2.read_json()函数语法格式:

pandas.read_json(path_or_buf=None,orient=None,encoding=None)

path_or_buf:表示文件的路径。

orient:表示期望的JSON字符串格式。

encoding:表示读取文件的指定编码格式。

import pandas as pd
json_data = pd.read_json("Animal_specise.json",encoding="utf8")
print(json_data)

4.4 从HTML表格读取数据

1.HTML是什么?

网页HTML表格。

2.read_html()函数语法格式:

pandas.read_html(io,match=".+",flavor = None,header = None,index_col = None,encoding = None)

match:表示返回与指定的正则表达式或字符串匹配的文本。

import requests
html_data = requests.get("https://www.tiobe.com/tiobe-index/")

html_table_data = pd.read_html(html_data.content, encoding="utf-8")
html_table_data[3].head(5)

4.5 从数据库读取数据

1.常见的数据库有:

MySQL,Oracle,SQLite,PostgreSQL.

要pip install SQLAIchemy  ,  pip install PyMySQL  

read_sql_table()   通过数据表名读取数据库中的数据

read_sql_query()   通过SQL语句读取数据库中的数据。

read_sql()  以上两个功能的结合。

pandas.read_sql(sql,con,index_col = None)

import pandas as pd
from sqlalchemy import create_enqine
enqine = create_enqine("mysql+pymysql://"
"root:1234568127.0.0.1:3306/ttsx")
category_data = pd.read_sql("goodscategory" , engine)
sql = "select *from goodscategory"
catagory = pd.read_sql(sql,engine)
print(category_data)

4.6 从Word文件读取数据

1.python-docx库

pip install python-docx

2.

from docx import Document 
#创建Document类对象
docx = Document("集合介绍.docx")
#  获取段落对象
paragraphs = docx.paragraphs
for i in paragraphs:
    print(i.text)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翰霖努力成为专家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值