pandas
fly_Xiaoma
技术分享,技术学习
展开
-
pandas将不同excel(DataFrame)合并到同一个excel的不同sheet(工作表)
直接上代码:import pandas as pd# 读取表格re=pd.read_excel('total_data.xlsx')re2=pd.read_excel('total_data2.xlsx')hot_topic=pd.read_excel('热门.xlsx')high_freq=pd.read_excel('高频.xlsx')question_=pd.read_excel('高频问题.xlsx')#合并excel到不同的sheetwriter=pd.ExcelWrit原创 2020-07-06 09:19:04 · 1697 阅读 · 1 评论 -
pandas读取html页面中的表格数据
说明:直接调用pands中的pd.read_html(url)函数,如果页面中有表格,那么表格数据会以DataFrame格式存储下来。比如我要获取下面的数据:调用代码:import pandas as pdpd.set_option('display.width',1000)pd.set_option('display.max_row',1000)pd.set_option...原创 2020-04-01 17:56:19 · 4761 阅读 · 0 评论 -
数据库连接
使用pymsql连接数据库,查询数据库中的表格,并使用pandas读取表格。import pymysqlpymysql.install_as_MySQLdb()from sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import create_engineimport pandas as pd...原创 2019-12-20 11:31:02 · 124 阅读 · 0 评论 -
pandas修改DataFrame中的列名&调整列的顺序
修改列名:直接调用接口:df.rename()看一下接口中的定义: def rename(self, *args, **kwargs): """ Alter axes labels. Function / dict values must be unique (1-to-1). Labels not contained i...原创 2019-11-24 16:37:21 · 8838 阅读 · 0 评论 -
pandas随机打乱数据
调用接口df.sample(n,frac,replace,weights,random_state,axis)例如:df=pd.read_csv('xxx.csv')df.sample(frac=1.0,random_state)frac=1.0 表示保留全部数据 random_state 随机种子,保证每次打乱的顺序相同源码中的例子: def sample...原创 2019-10-31 15:51:45 · 2841 阅读 · 0 评论 -
pandas对DataFrame中多列数据的操作
以同时处理两列数据为例,将两列中的数据相加,生成另外一列:import pandas as pddf = pd.DataFrame({'a': np.random.randn(6), 'b': ['foo', 'bar'] * 3, 'c': np.random.randn(6)})print(df)def...原创 2019-08-02 13:24:55 · 11991 阅读 · 2 评论 -
pandas删除某些列、行总结
创建df:>>> df=pd.DataFrame(np.arange(16).reshape(4,4), columns=list('ABCD'), index=list('1234'))>>> dfA B C D101232456738910...原创 2019-07-26 11:39:46 · 14943 阅读 · 0 评论 -
使用pandas读取MySQL数据库中的表格
1、使用pymysqlimport pymysqlpymysql.install_as_MySQLdb()#注意:mysqldb是python2中的包,在python3中已经变为pymsql,如果想继续使用python2的数据库连接格式#可以调用pymysql.install_as_MySQLdb()命令conn=pymysql.connect(host='192.168.3.8...原创 2019-07-26 10:01:05 · 1683 阅读 · 2 评论 -
count()、value_counts()与size()函数
1、python中的count()函数统计某个元素出现的次数如:统计string中某字符的次数str.count(sub,start=0,end=len(string)-1)Args Annotations sub 搜索的子字符串 start 字符串开始搜索的索引位置。默认从第一个字符开始,索引为0 end 字符串结束搜索的位置,默认字符串的最后...原创 2019-07-25 22:03:13 · 2827 阅读 · 0 评论 -
Series.to_frame()函数
可以将数组转换为DataFrame格式:示例:原创 2019-07-25 14:03:52 · 15580 阅读 · 1 评论 -
pandas中的unique()和unique()
1、unique(),函数输出每个特征的唯一值例:for col in data.columns: print('{} unique element :{}'.format(col,data[col].unique())输出:User_ID unique element : [1000001 1000002 1000003 ... 1004113 1005391 100...原创 2019-07-25 13:58:34 · 2373 阅读 · 0 评论 -
groupby()函数和reset_index()
pandas中的groupby()函数:选择某一列进行分组。(加上size()函数---统计本列中的元素出现频次) reset_index():重新分配索引如:import pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','on...原创 2019-07-18 12:06:29 · 8144 阅读 · 1 评论 -
pandas中的loc()与iloc()函数的区别
定义一个DataFrame对象:import pandas as pddata=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]}print(data) .loc()方法.loc()有两种用法:使用行标签和列标签,获取行、列对应的某一个值 选定某一个区域的值这两种方法表示为:data.loc['b','B...原创 2019-04-06 21:07:59 · 7592 阅读 · 0 评论 -
pandas中的get_dummies()函数
数据集中离散特征的编码分为两种情况:离散特征的取值之间没有大小的意义(特征之间的欧式距离相同),比如color:[red,green],可以采用one-hot的方法 离散特征的的取值有大小的意义(特征之间的欧式距离不同),比如size:[X,XL,XXL],可以采用数值的映射{X:1,XL:2,XXL3},这种方式就是LabelEncoder()的思想对离散特征的处理可以采用两种方式...原创 2019-04-05 22:15:32 · 3330 阅读 · 0 评论 -
Series中的map()函数
Series中的map()函数可以接受一个函数或含有映射关系的字典型对象使用map()是一种实现元素级转换以及其他数据清理工作的便捷方式。(DataFrame中的对应的是applymap()函数以及apply()---对每一行操作,等同于axis=0)例子:import pandas as pdfrom pandas import Series, DataFramedata...原创 2019-04-05 21:50:16 · 5540 阅读 · 0 评论