#1.怎么从CSV和TXT中获取数据?
什么是csv和TXT文件?
常见的文本格式,以纯文本形式存储数据。
pandas中用read_csv()函数。语法格式:read_csv(filepath_or_buffer,sep"," header="infer",names=None , encoding = None,,,)
filepath_or_buffer:表示文件的路径,,sep"," 表示指定的分隔符,header="infer"指定哪一行数据作为对象的列索引,names=None 对象的列索引列表,encoding:指定的编码格式。
1.例子:关于csv文件
import pandas as pd
evaluation_data = pd.read_csv("phone.csv",enconding="gbk")
print(type(evalution_data))
print(evalution_data)
2.例子:读取TXT文件中的数据
txt_data = pd.read_csv("itheima_books.txt",encoding="utf8")
print(txt_data)
4.2 从Excel文件读取数据
pandas中的read_excel()函数读取Excel文件的数据,语法格式:pandas.read_excel(io,sheet_name=0,header=0,name=None,index_col=None)
io:表示文件的路径。sheet_name:表示读取的工作表。header:指定文件中哪一行数据作为DataFrame类对象。names:表示DataFrame类对象中索引的列表。index_col将Excel文件中的列标题作为DataFrame类对象的行索引。
import pandas as pd
excel_data = pd.read_excel("Athletes_info.xlsx", sheet_name=2)
excel_data.head(5)#显示前5行数据
4.3 从JSON文件读取数据
1.是什么?
是一种轻量级的数据交换格式,.json
2.read_json()函数语法格式:
pandas.read_json(path_or_buf=None,orient=None,encoding=None)
path_or_buf:表示文件的路径。
orient:表示期望的JSON字符串格式。
encoding:表示读取文件的指定编码格式。
import pandas as pd
json_data = pd.read_json("Animal_specise.json",encoding="utf8")
print(json_data)
4.4 从HTML表格读取数据
1.HTML是什么?
网页HTML表格。
2.read_html()函数语法格式:
pandas.read_html(io,match=".+",flavor = None,header = None,index_col = None,encoding = None)
match:表示返回与指定的正则表达式或字符串匹配的文本。
import requests
html_data = requests.get("https://www.tiobe.com/tiobe-index/")
html_table_data = pd.read_html(html_data.content, encoding="utf-8")
html_table_data[3].head(5)
4.5 从数据库读取数据
1.常见的数据库有:
MySQL,Oracle,SQLite,PostgreSQL.
要pip install SQLAIchemy , pip install PyMySQL
read_sql_table() 通过数据表名读取数据库中的数据
read_sql_query() 通过SQL语句读取数据库中的数据。
read_sql() 以上两个功能的结合。
pandas.read_sql(sql,con,index_col = None)
import pandas as pd
from sqlalchemy import create_enqine
enqine = create_enqine("mysql+pymysql://"
"root:1234568127.0.0.1:3306/ttsx")
category_data = pd.read_sql("goodscategory" , engine)
sql = "select *from goodscategory"
catagory = pd.read_sql(sql,engine)
print(category_data)
4.6 从Word文件读取数据
1.python-docx库
pip install python-docx
2.
from docx import Document
#创建Document类对象
docx = Document("集合介绍.docx")
# 获取段落对象
paragraphs = docx.paragraphs
for i in paragraphs:
print(i.text)