python:数据预处理
文章平均质量分 76
htuhxf
这个作者很懒,什么都没留下…
展开
-
Pandas.read_csv()参数low_memory and dtype options什么鬼 ?
Pandas read_csv low_memory and dtype options 敢问这什么鬼?【stackoverflow经典解答链接】提问者:Josh,2014 Jun 16 at 19:56当处理df = pd.read_csv('somefile.csv')我得到\Users\Python\Python36\python.exe E:/Python/11...翻译 2018-10-24 14:31:07 · 21892 阅读 · 1 评论 -
Python: 对于多维groupby()透视数据,筛选保留分组的前N个最大/最小数据?
stackoverflow原文链接:这里。Q: 我想把我的dataframe,先进行gourpby()处理、再对结果进行排序。print(df) # df输出结果如下:count job source0 2 sales A1 4 sales B2 6 sales C3 3 sales D4 7 sales E5...转载 2019-07-24 09:56:04 · 9639 阅读 · 2 评论 -
python:merge() 搭配reduce() - 实现批量合并表等等
批量处理表格,实现查找匹配stackoverflow原问题链接。假设我们有 >=3 个csv表格,使用pands.concat(),可以方便的实现纵向合并;可是横向合并怎么处理呢??方法一:嵌套函数方法df1.merge(df2,on='目标列的名称').merge(df3,on='目标列的名称')优点:简单易理解。缺点:不适合大批量处理。比如,我对过去N年的月收入进行透...翻译 2019-01-07 19:25:21 · 5700 阅读 · 0 评论 -
python:提高 - 数据预处理 - pandas -表的横向合并 纵向合并 merge() concat()
《Merge, join, and concatenate》笔记原文链接:这里。注:默认情况下,所有合并函数生成文件的方式均是新生成,即不修改原数据。(未完待续……)第一、concat函数:功能:默认按照axis=0执行合并,即df1添加行,如果有df1没有的列,也添加列。concat()函数执行按an axis合并的所有复杂工作,同时在其他axes上用join参数执行索引(如果有)...翻译 2018-12-03 19:17:16 · 11028 阅读 · 1 评论 -
翻译 python:入门 - 数据预处理 - pandas行列的删除和改名.DataFrame.drop .DataFrame.rename
官方文档链接:这里。DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')功能:从DataFrame里边按行或按列删除指定的对象(labels);labels:要删除的对象。PS:多个对象用列表输入;axis:默认删除行。可选参数2个,...翻译 2018-11-28 19:23:35 · 550 阅读 · 0 评论 -
翻译 python:进阶 - 数据预处理 - pandas - 实现EXCEL的VLOOKUP功能
官方文档这里。DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)[source]功能:在多个DataFrame之间通过list进行join操作。other : 即要jion的其他对象。可以是 DataFrame、 Series 集合、或者DataFrame列表;这些对象要和手头的...翻译 2018-11-27 19:18:17 · 19058 阅读 · 0 评论 -
翻译 python:进阶 - 数据预处理 - 数据提取 - 使用DataFrame.isin()实现EXCEL的精确筛选功能
原文链接在此处理数据方面,Python最重要的一个包就是Pandas,所以尽量使用pandas来处理更多的问题我觉的是最合适的。 DataFrame.isin(values)功能:来查看参数values是否在Series/Data Frame里边,是的话就返回按DataFrame分布布尔值True,否则Falsevalues: Series, List, Tuple, DataFram...翻译 2018-11-27 15:16:15 · 6230 阅读 · 0 评论 -
python: 进阶 - 数据预处理 - 数据提取 - 使用str.contains()实现EXCEL的模糊匹配筛选功能
例如:我们手头有>1百万行数据的销售表haha.csv,要筛选所有和客户,比如中国移动,有关的销售记录。怎么做?Excel:首先:打开文件,点击“筛选”;然后:在列“customer_name”下拉框,输入关键词中国移动;最后:点击点击“确定”,得到所有含有中国移动的的记录;Python:第一步:读取文件;第二步:设定筛选条件;第三步:打印/输翻译 2018-11-26 16:32:27 · 19343 阅读 · 4 评论 -
python: 进阶 - 数据预处理 - 数据清洗 - 使用正则表达式,完成类似EXCEL的替换功能
立个flag:不断优化语句,不间断更新。第一版:例如我们有内容如下的 haha.csv表。现在我想把含有移动的字段替换成另一个东西,比如你想换成yidong好了。怎么做呢?Excel: 首先,我们“ctrl + h”调出查找替换对话框;然后,设定要查找的为移动*,要替换的为yidong;最后,点击确认就好了。Python: python的思路大致相同思路。第一步,查找含有 移动...原创 2018-11-26 11:02:57 · 2190 阅读 · 0 评论 -
python: 入门 - 数据预处理 - 数据清洗 - (翻译python for data analysis 2nd Edition)正则表达式处理字符串
Resource: Pyhon for Data Analysis 2nd Edition by Wes MaKinney p213 -p216**正则表达式(Regular expressions)**提供一种方便灵活的方法来搜索、(复杂的)匹配文本中的字符串格式。单一的表达式,一般曾称作regrex,是根据“正则表达式语言”编译的一串字符。Python内置的re模块负责正则表达式的应用执行...翻译 2018-11-19 18:02:24 · 1551 阅读 · 0 评论 -
Python:入门 - 数据预处理 - 正则表达式 之 通配符
官方文档链接:docs.python.org/3library/re.:除了换行符,可匹配任意一个字符;+:1 或者任意个字符;*:0或任意个字符;?:0或一个字符;*[HTML]:RE. ab? 可以匹配‘a’或者 ‘ab’。*?、+?、??:{}{}~:从string的开头进行匹配;$``...翻译 2018-11-20 14:54:23 · 821 阅读 · 0 评论 -
Python:数据预处理 - 调换column到指定位置或者任意位置
Q:比如有这样一个DataFrame:import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 5))我知道df['mean] = df.mean(1)可以加上平均值列。但是如果我想把mean列放到开头,或者c列的位置怎么做呢?A:"""把&qu翻译 2019-03-07 19:24:13 · 12405 阅读 · 2 评论