导入pandas库
import pandas as pd
1.导入csv\txt文件数据
pd.read_csv()
常用参数:
filepath_or_buffer:文件路径(必填,其他参数按需求填写)
sep:指定分隔符,默认逗号','。
header:指定第几行作为表头。默认为0(即第1行作为表头),若没有表头,需设置header=None,可以是int或list。
names:指定列的名称,用list表示,默认None。
index_col:指定行索引,可以是一列或多列,默认None。
usecols:需要读取的列,可以使用列序列也可以使用列名,默认None。
prefix:给列名添加前缀。如prefix=x,会出来X0,X1,....,默认None。
skiprows:需要忽略的行数(从文件开始处算起),或需要跳过的行号列表(从0开始),默认None。
skipfooter:需要忽略的行数(从最后一行开始算)
nrows:需要读取的行数(从文件头开始算起),默认None。
encoding:编码方式,乱码时使用,默认None。
例1:导入文件data.csv中数据:
例2:导入文件data.txt中数据:
2.导入excel数据
pd.read_excel()
常用参数:
io:excel文件路径(必填,其他参数按需求填写)
sheet_name:需要导入数据的工作表表名,可以是int\string\list,None导入所有工作表数据,默认0。
参数header、names、index_col、usecols、skiprows、nrows、skip_footer、encoding的用法与pd.read_csv相同。
例:导入文件data.xlsx中数据:
3.导入mysql数据
方法一:使用pymysql
import pymysql
conn=pymysql.connect(host="服务器地址",port=端口,user="用户名",passwd="密码",db="数据库名")
sql="select * from 表名;"
df=pd.read_sql(sql,conn)
例:导入数据库test下cities表中数据
方法二:使用sqlalchemy
from sqlalchemy import create_engine
engine=create_engine('mysql+pymysql://用户名:密码@服务器地址:端口/数据库名')
sql='select * from 表名;'
df=pd.read_sql(sql,engine)
例:导入数据库test下cities表中数据
4.导入html表格数据
pd.read_html()#爬取table型网页数据,返回dataframe组成的list
常用参数:
io:目标网址
match:要匹配的正则表达式,默认'.+'。
flavor:解析器,默认None。
header:指定表头,默认None。
skiprows:跳过的行默认None。
attrs:属性,比如 attrs = {‘id’: ‘table’}。
parse_dates:解析日期,默认False。
encoding:编码方式,乱码时使用,默认None。
例:爬取财富中文网中2019年财富世界500强排行榜