科学数据包
Doris_H_n_q
这个作者很懒,什么都没留下…
展开
-
Pandas组间组内分类排序抽样/rank/groupby/apply/sample/sort_values多种组合随机抽数据
举栗子test=pd.DataFrame({'a':[1,2,3,4,5,11,22],'b':[6,7,8,9,10,12,33],'c':['x','z','y','z','x','y','z']})1组间排序 组间排序输出显示的是“c”列中各个类别为一个数值的形式。test['c'].rank(ascending=0,method='dense')2...原创 2019-12-25 19:43:44 · 3681 阅读 · 0 评论 -
Pandas数据处理/drop_duplicates()/映射map()/replace()/rename()/分箱/过滤异常值/随机抽样take()/random.permutation()
1、删除重复元素使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为Trueimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt%matplot...原创 2018-09-02 23:13:14 · 1185 阅读 · 0 评论 -
Pandas数据处理(续)/数据聚合[groupby+sum,mean/apply/transform]
5. 数据聚合【重点】数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值。数据分类处理:分组:先把数据分为几组 用函数处理:为不同组的数据应用不同的函数以转换数据 合并:把不同组得到的结果合并起来数据分类处理的核心: groupby()函数创建数据集df = DataFrame({'item':np.random.randint(0,4,50), ...原创 2018-09-03 09:16:12 · 10486 阅读 · 2 评论 -
Pandas数据加载[read_csv/read_table/sqlite3.connect/read_sql/pymysql.connect/create_engine]
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,期中read_csv和read_table这两个使用最多导包import pandas as pdfrom pandas import Series,DataFrameimport numpy as np使用read_csv将其读入# SMSSpanCollection 文件,没有标题 sep:分隔...原创 2018-09-06 11:13:46 · 793 阅读 · 0 评论 -
Pandas排序sort_index/sort_values
排序 按照某一列的大小进行排序。Py3目前提供两个函数。1.1 sort_index 这个函数似乎不建议使用了,推荐使用sort_values详情参看:官方文档。'''将'Date'设置为行索引并按时间排序:set_index()/sort_index()'''app.set_index('Date',inplace=True)# 时间,先后# 排序app.sor...原创 2018-09-16 14:36:56 · 2065 阅读 · 1 评论 -
数据处理数据格式转化[map/filter/reduce/re.sub/x.strftime/pd.to_datetime/sort_values/drop_duplicates/apply(str)
导包import numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt%matplotlib inline创建数据集datas={'name':['张a亦','张亦','李尔','李尔','赵兆','龚珍c','熊时','王武','王一...原创 2018-09-16 16:23:45 · 750 阅读 · 0 评论 -
Pandas显示小数位数[pd.round(2)/%.2f]
Pandas显示小数位数:pd.round(2)>>> df = pd.DataFrame(np.random.random([3, 3]),... columns=['A', 'B', 'C'], index=['first', 'second', 'third'])>>> df A B ...原创 2018-09-16 16:08:37 · 13164 阅读 · 1 评论 -
数值积分,求解圆周率[Scipy]
求解圆周率integrate 对函数(1 - x^2)^0.5进行积分 # s = pi*r**2 # r = 1 # s = pi # 求解圆的面积------>圆周率x = np.linspace(-1,1,200)# x**2 + y**2 = 1 ——> 半径是1# y = (1 - X**2)**0.5y = (1 - x**2)**0.5yOu...原创 2018-09-10 08:37:22 · 2908 阅读 · 0 评论 -
Scipy文件输入/输出
Scipy文件输入/输出随机生成数组,使用scipy中的io.savemat()保存 文件格式是.mat,标准的二进制文件导入import scipy.ioio存储# moon是读入的图片,moon_result是消除噪声后的图片scipy.io.savemat('./data.mat',mdict={'moon':moon,'moon_result':moon_resu...原创 2018-09-10 10:06:22 · 2216 阅读 · 0 评论 -
图片处理——灰度处理
图片灰度处理三种方法导包import scipy.misc as miscimport matplotlib.pyplot as plt%matplotlib inlineimport numpy as np导入图片face = misc.face()plt.imshow(face)face.shapeOut:(768, 1024, 3)法一:...原创 2018-09-10 10:28:23 · 2385 阅读 · 0 评论 -
【转】数据处理——One-Hot Encoding
机器学习 数据预处理之独热编码(One-Hot Encoding)来源:https://blog.csdn.net/dulingtingzi/article/details/51374487https://www.cnblogs.com/haobang008/p/5911466.htmlhttps://blog.csdn.net/pipisorry/article/details/...转载 2018-09-17 22:37:06 · 343 阅读 · 0 评论 -
pandas统计表类别个数df.value_counts()
统计数据表里某列的类别个数:value_counts()import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlinedf=pd.DataFrame('id'=[1,2,1,1,3,3,2,2])df['id'].value_counts()#或者比较复杂的写法df...原创 2019-07-05 14:48:40 · 25716 阅读 · 2 评论 -
jupyter notebook保存数据到mysql问题及解决
连接mysql数据库① 导包:import pymysql② 创建连接:conn = pymysql.connect(host = 'localhost',port = 3306,user = 'root',password = 'xxx',db = 'xxx',charset='utf8')③ 查询操作:sele=pd.read_sql('select * from t2...原创 2018-08-04 17:44:40 · 4854 阅读 · 1 评论 -
Pandas填充缺失值bfill/ffill/显示2位小数set_option
设置控制台打印时显示2位小数:pd.set_option('precision', 2) '''method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None Method to use for filling holes in reindexed Series pad / ffill: p...原创 2018-08-29 11:00:47 · 7610 阅读 · 0 评论 -
图片处理【简单灰度处理/numpy】/axis=0/1/2
图片处理步骤:① 导入库import numpy as np# 绘图的工具import matplotlib.pyplot as plt# 将绘图工具嵌入到代码行中%matplotlib inline② 读入图片# RGB 透明度 ARGB RGBAcap=plt.imread('./captcha.jpg')③ 查看图片形状 及 提升透明度 #查看原图形...原创 2018-08-30 23:08:16 · 1280 阅读 · 0 评论 -
Ipython基础命令使用——笔记
一、启动程序执行以下命令:jupyter notebook[NotebookApp] Serving notebooks from local directory: /home/nanfengpo[NotebookApp] 0 active kernels[NotebookApp] The IPython Notebook is running at: http://loc...原创 2018-08-31 07:48:32 · 1065 阅读 · 0 评论 -
20道numpy练习题
一、导入相关库:import numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt%matplotlib inline查看版本:1、创建一个长度为10的一维全为0的ndarray对象,然后让第5个元素等于12、创建一个元素为从...原创 2018-08-31 18:05:50 · 22163 阅读 · 2 评论 -
Pandas层次化索引Series/DataFrame/索引堆/聚合——笔记
pandas层次化索引1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组一、导入相关库import numpy as npimport pandas as pdfrom pandas import Series,DataFrame二、Series【Series也可以创建多层索引】① 生成基础Seriess = Serie...原创 2018-08-31 20:54:47 · 3093 阅读 · 1 评论 -
pandas的拼接操作
pandas的拼接分为两种:级联:pd.concat, pd.append 合并:pd.merge, pd.joinimport numpy as npimport pandas as pdfrom pandas import Series,DataFrame0. 回顾numpy的级联练习12:生成2个3*3的矩阵,对其分别进行两个维度上的级联nd1 = np.ran...原创 2018-08-31 22:14:14 · 4145 阅读 · 0 评论 -
使用随机数生成图片
使用随机数生成图片#0-255生成jpgs1=np.random.randint(0,255,(456, 730),dtype=int)s1plt.imshow(s1)#0-1生成pngs2=np.random.random((22,55,3))s2plt.imshow(s2)彩色:s=np.random.randint(0,255,(300,400,3),...原创 2018-09-01 09:00:30 · 3119 阅读 · 0 评论 -
透视表:pd.pivot_table()/交叉表:pd.crosstab(index,colums)
透视表概念:pd.pivot_table()透视表是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。import numpy as npimport pandas as pd 1.创建一个数据集df = DataFrame({'male':['男','女','男','女','男...原创 2018-09-01 16:28:53 · 2172 阅读 · 0 评论 -
jupyter notebook读取/导出文件/图片
import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom pandas import Series,DataFrame# 如果不添加该行,则每次显示图片都需要加上plt.show%matplotlib inline读入文件:pd.read_csv('./test.csv')读入图片:plt....原创 2018-08-30 10:17:21 · 51932 阅读 · 5 评论 -
Pandas索引及切片——笔记
笔记:建表:df = DataFrame(np.random.randint(0,150,size = (6,6)),index=list('ABCDEF'),columns=['Python','数学','En','Chinese','理综','文综'])对列进行索引df['Java'] 数据类型Seriesdf[['Java','数学']] 数据类型dfdf['a':'c'] ==...原创 2018-08-30 07:49:18 · 1691 阅读 · 2 评论 -
数组中::双冒号含义
数组中的::意思: 三维数组 a[:,:,::-1] 纵坐标以中心为轴,对称翻转 a[:,:,:3] 截取至第二列(从0开始) a[:,:,3] 取出第三列的值(从0开始) 二维数组 a[:,2::] 忽略前两列,显示后面所有列数 a[:,::2] 从第一列开始(包含第一列以此类推),隔2个显示一个 a[::2,:] 从第一行开始(包含第一行以此类推),隔2...原创 2018-08-30 07:48:59 · 1781 阅读 · 0 评论 -
numpy随机数random/arg/any/all
numpy生成随机数小结:import numpy as npnp.random.randint(0,100,size=(2,3,3)) ——从0-100的3行3列的2个数组【2维】np.linspace(0,100,10) ——从0-100的10个等差数组np.eye(N=5) ——对角线为1其他为0的5行5列数组np.zeros(shape=(2,3,3),dtype=float)...原创 2018-08-31 11:19:58 · 512 阅读 · 0 评论