导入csv数据
csv是一种常见的数据存储格式,基本上我们遇到的数据都可以转为这种存储格式。在Python数据分析中,我们可以使用pandas模块导入csv数据,接下来通过实战 讲解。
import pandas as pd
df = pd.read_csv('./sources/hexun.csv')
print(df.describe())
# result
1 21 0
count 5696.000000 5696.000000 5696.000000
mean 2849.500000 772.570751 4.636236
std 1644.437898 2814.228154 19.843046
min 2.000000 1.000000 0.000000
25% 1425.750000 1.000000 0.000000
50% 2849.500000 2.000000 0.000000
75% 4273.250000 110.250000 0.000000
max 5697.000000 62861.000000 363.000000
排序
# 按照某一列排序sort_values(by='列名')
print(df.sort_values(by='21'))
导入excel数据
import pandas as pd
df = pd.read_excel('./sources/abc.xls')
print(df)
导入MySQL数据库里的数据
MySQL是一种很常见的数据库,在Python数据分析中,我们也可以直接从MySQL中取数据,接下来通过实战讲解。
import pymysql
import pandas as pd
db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', db='jobs')
sql = 'select * from wy'
all = pd.read_sql(sql=sql, con=db)
print(all.describe())
# result
title salary company jobid position lat lng
count 423 423 423 423 423 423 423
unique 234 81 265 423 290 246 243
top Web前端开发工程师 6-8千/月 广州旭升源科技有限公司 116775522 万达广场 0.000000 0.000000
freq 49 52 12 1 14 28 28
导入html数据
读取的是网页中的表格table
使用pandas,可以直接从html网页中加载对应table表格中的数据,但是在使用read_html()之前,需要先安装html5lib模块与beautifulsoup4模块。
读取本地网页中的表格
import pandas as pd
df = pd.read_html('./sources/abc.html')
print(df)
# result
[ 0 1
0 7 9
1 5 8
2 2 6]
读取互联网网页中的表格
import pandas as pd
df = pd.read_html('https://www.yinhang123.net/yhll/gexinglilv/1243139.html')
print(df)
导入文本数据
import pandas as pd
txt = pd.read_csv('./sources/abc.txt')
print(txt)
# result
id 文章 阅读数
0 1 三八十年 2000
1 2 就手机卡 8299
2 3 卡激活卡回家啊 992