七月在线python数据分析-第四课数据获取与处理,主要讲了多种格式数据加载、处理与存储,包括csv,txt,jon,xml文件的读取与解析。需要用到之前 学过的numpy, pandas库。
1、读取csv文件。
2、读取txt文件。
也可指定显示的前几行。
nrows = 5, 表示指定前5行显示。
可以将数据保存成csv格式。
也可以指定数据存储时的columns。
也可以存储时间矩阵,第一参数表示时间起点,第二个参数表示时间间隔。
将时间矩阵可作为一个矩阵的index,存储成csv格式的数据。
除了pandas库外,可以使用csv库读取csv文件。
3、读取json文件时,可用json库读取json文件。
4、Beautiful Soup, 是一个python的库,主要用于从网页抓取数据.。
5、读取二进制文件
6、读取h5文件
7、一个很重要的数据存储工具是数据库,可以对保存的数据进行增删改查等操作。
import pandas.io.sql as aql
import MySQLdb
8、request库从网上爬取数据
import request
result=request.get("https://www.baidu.com")
print(result.status_code)#打印返回结果
print(result.encoding)#打印编码格式
print(result.content)#打印网页源码
9、在URLS中传参
payload={'wd':'七月在线','m':'10'}
r=request.get("http://www.baidu.com",params=payload)
对于python的学习还有待加强,还要多多学习,希望这部分能对喜欢python的人有帮助。