![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
ml_hhy
这个作者很懒,什么都没留下…
展开
-
pandas实现根据区域切分后设置对应的标签
pandas实现根据区域切分后设置对应的标签df = pd.DataFrame([0.01, 0.2, 0.3, 0.9], columns=['values'])# 设置切分区域listBins = [0, 0.023, 0.8, 1]# 设置切分后对应标签SlistLabels = ['C','A','S']# 将预测值映射为类别值df['level'] = pd.cut(df['values'], bins=listBins, labels=listLabels, include_lo原创 2020-07-14 16:43:48 · 602 阅读 · 0 评论 -
半自动构造新特征
半自动构造新特征主要原理是通过groupby(C1).agg(func)[N1]的方式来创造新特征,实现特征交叉还需配合特征筛选使用有更好效果需要传入gby_cols 分组列,stati_cols 统计列,func_list 统计函数prefix_list的特征前缀可自行修改简单易懂,无多余功能,网上没看到类似函数,自行写一个# 半自动构造新特征class FeatureCombination(object): def __init__(self): # init原创 2020-05-19 14:40:14 · 218 阅读 · 0 评论 -
pandas 使用技巧
# 根据定好的columns去给数据集填值# 数据集中与定好的columns中匹配的保留,缺失的根据fill_value的值进行填充,多余的忽略a = pd.DataFrame({'haha': range(5), 'didi':range(20, 5), 'cc': range(40, 5)})t_col = ['haha', 'fafa', 'didi', 'gg']a.reinde...原创 2019-04-17 14:52:32 · 162 阅读 · 0 评论 -
pandas用法示例
示例:用特定于分组的值填充缺失值对于缺失数据的清理工作,有时你会用dropna将其替换掉,而有时则可能会希望用一个固定值或由数据集本身所衍生出来的值去填充NA值。这时就得使用fillna这个工具了。在下面这个例子中,我用平均值去填充NA值:In [91]: s = pd.Series(np.random.randn(6))In [92]: s[::2] = np.nanIn [...原创 2018-08-08 20:04:26 · 582 阅读 · 0 评论 -
pandas 分组聚合
df.groupby('key1')['data1']df.groupby('key1')[['data2']]是以下代码的语法糖:df['data1'].groupby(df['key1'])df[['data2']].groupby(df['key1'])对一个列或不同的列应用不同的函数具体的办法是向agg传入一个从列名映射到函数的字典:In [71]: gro...原创 2018-08-02 23:48:34 · 424 阅读 · 0 评论 -
数据规整:聚合、合并和重塑
merge函数的参数对于pandas对象(如Series和DataFrame),带有标签的轴使你能够进一步推广数组的连接运算。具体点说,你还需要考虑以下这些东西:如果对象在其它轴上的索引不同,我们应该合并这些轴的不同元素还是只使用交集? 连接的数据集是否需要在结果对象中可识别? 连接轴中保存的数据是否需要保留?许多情况下,DataFrame默认的整数标签最好在连接时删掉。 pan...原创 2018-07-19 10:42:42 · 633 阅读 · 0 评论 -
pandas常见操作
处理缺失值total = train.isnull().sum().sort_values(ascending = False)percent = round(train.isnull().sum().sort_values(ascending = False)/len(train)*100, 2)pd.concat([total, percent], axis = 1,keys= [...转载 2018-05-08 13:07:37 · 1131 阅读 · 0 评论 -
numpy
ndarray的数据类型dtype(数据类型)是一个特殊的对象,它含有ndarray将一块内存解释为特定数据类型所需的信息:dtype是NumPy灵活交互其它系统的源泉之一。多数情况下,它们直接映射到相应的机器表示,这使得“读写磁盘上的二进制数据流”以及“集成低级语言代码(如C、Fortran)”等工作变得更加简单。ndarray的具体数据类型有: 注意:使用numpy.st...原创 2018-07-11 00:05:36 · 515 阅读 · 0 评论 -
数据清洗与准备 (pandas)
作者:SeanCheney 链接:https://www.jianshu.com/p/ac7bec000dad#处理缺失数据与处理缺失值相关的api 滤除缺失数据过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull或布尔索引的手工方法,但dropna可能会更实用一些。对于一个Series,dropna返回一个仅含非空数据和索引值的Series:In [15]:...原创 2018-07-12 10:25:30 · 685 阅读 · 0 评论 -
pandas使用(不定期把所见的比较有效的处理方式加过来)
作者:SeanCheney 链接:https://www.jianshu.com/p/161364dd0acf没有全部详细整过来,大概弄了一下 sort_values 列可以通过赋值的方式进行修改。例如,我们可以给那个空的”debt”列赋上一个标量值或一组值:In [54]: frame2['debt'] = 16.5In [55]: frame2Out[55]...转载 2018-07-11 23:53:05 · 399 阅读 · 0 评论 -
pandas数据加载、存储与文件格式
https://www.jianshu.com/p/047d8c1c7e14假设你希望将message列做成DataFrame的索引。你可以明确表示要将该列放到索引4的位置上,也可以通过index_col参数指定”message”:In [15]: names = ['a', 'b', 'c', 'd', 'message']In [16]:pd.read_csv('exampl...转载 2018-07-11 23:19:14 · 724 阅读 · 0 评论