数据处理
文章平均质量分 68
蜡笔新小
只会System.out.println("Hello World");
展开
-
数据加载,存储与文件格式
读取函数主要函数有两个,如下所示:read_csv:默认分隔符为逗号read_table:默认分隔符为制表符(‘\t’)一些原创 2021-07-26 21:16:01 · 80 阅读 · 0 评论 -
绘图和可视化
hist柱状图例子:import matplotlib.pyplot as pyimport numpy as npnp.random.seed(0)#py.plot(np.random.randn(100),'k--')#py.show()py.hist(np.random.randn(100),bins=20,color='k',alpha=0.3)py.show()运行结果为:参数解释:bins:柱状图的柱数,默认为10color:柱状图的颜色alpha.原创 2021-07-28 22:58:57 · 69 阅读 · 0 评论 -
numpy库及其具体应用
切片索引a=np.array([[1,2,3],[4,5,6]])print(a[:,1:2])在此代码中,我们首先创建了一个数组,再对这个数组进行切片,切片的时候,a[,]逗号前面的部分是行号,逗号后面的部分是列号,‘:’这个是从什么到什么的标志,1:2表示从1到2,并且不包含2,(左边包含右边不包含)花式索引b=np.empty((8,4),dtype=int)for i in range (8): b[i]=i+1print(b[[4,3,0,6]])print原创 2021-07-23 11:40:00 · 351 阅读 · 1 评论 -
《利用Python进行数据分析》数据处理——MovieLens 1M数据集
MovieLens 1M数据集下载地址:https://grouplens.org/datasets/movielens/1m/为方便,我已将数据集防止在csdn上,0积分下载,地址稍后补充。read_tableread_table是一个数据读入工具,将数据读入到一个DataFrame中,例如,在本次数据处理的例子中,我们先import pandas as pduname = ['user_id', 'gender', 'age', 'occupation', 'zip']use原创 2021-07-21 18:02:56 · 1575 阅读 · 0 评论 -
pandas库及其具体应用
Series一组数据加索引可以有以下的创建方式(运用字典)import numpy as npimport pandas as pdobj=pd.Series([1,2,3,4,5,6])print(obj)sdata={'a':3500,'b':2500,'c':4500}bojt=pd.Series(sdata)print(bojt)运行结果图:Series的功能特别的强大,比如说两个数组可以相互相加,或者是数组可以自动匹配赋值,具体的可以在https://bl..原创 2021-07-25 00:03:50 · 332 阅读 · 1 评论 -
数据规整化:清理、转换、合并、重塑
merge函数merge(df1,df2,on='key',how=' 附录一',suffixes=())附录一:left:左外连接right:右外连接inner:内连接outer:外连接区别:内连接只有两个key一样时才会出现在最后的结果中,左外连接可以出现左边(df1)里面所有拥有的key值,(右连接一样),外链接则是左连接和右连接的组合,最后的结果包含df1和df2的所有值代码:import pandas as pddf1=pd.DataFrame({'原创 2021-07-27 11:31:12 · 267 阅读 · 0 评论 -
数据聚合与分组训练
Groupby技术基础知识先上代码:df =pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})#print(df)print(df.groupby(['key1','key2']).mean().reset_index())运行结果为:mean()函数表示的是:取平均值原创 2021-07-29 19:43:47 · 221 阅读 · 0 评论 -
2021.2.26学习日记转载
目录基本计算random库copy库列表字符串字典类异常模块包基本计算decimal.Decimal(“ ”)精准小数x//y 地板除 取比结果小的最大整数divmod(x,y) 返回(x//y,x%y)x**y==pow(x,y) x的y次方random库randomint 随机数生成copy库copy.copy(x) 实现浅拷贝copy.deepcopy(x) 实现深拷贝列表reverse 反转count原创 2021-07-26 21:21:01 · 77 阅读 · 0 评论 -
Basemap 基础应用
下午看《利用python进行数据分析》这本书,发现了一个宝藏包(就是安装挺难的,可以查一下csdn上面其他的文章)首先,我们可以看以下最基础的代码长什么样子:import warningsfrom mpl_toolkits.basemap import Basemapimport matplotlib.pyplot as pltimport numpy as npimport oswarnings.filterwarnings('ignore')my_map = Basemap( pr原创 2021-07-29 16:33:19 · 1227 阅读 · 0 评论 -
数据处理实例—共享单车数据处理
本数据为第十四届认证杯C题数据,数据下载链接为:http://www.tzmcm.cn/shiti.html首先,我们有一份excle文件,里面的内容是这样的:然后,开始进行数据处理,先在Python里面干我们经常干的事情df = pd.read_csv('data.csv')之后,我们可以发现:这份数据里面,有很多没有放置共享单车的位置,还单独列成了一列数据,因此,我们需要将这一类数据去掉。df = pd.read_csv('data1.csv')df = df[df..原创 2021-07-29 11:09:10 · 2250 阅读 · 0 评论 -
数据处理实例:2012年联邦选举委员会数据库
首先 数据下载网站:https://tianchi.aliyun.com/dataset/dataDetail?spm=5176.20895038.0.0.3c736ad9z5Td6r&dataId=2581&userId=1下载下来数据后,需要对其进行合并,合并方法:data_01 = pd.read_csv('data_01.csv')data_02 = pd.read_csv('data_02.csv')data_03 = pd.read_csv('data_03..原创 2021-08-05 11:40:18 · 414 阅读 · 0 评论