2017年05月_Shingle_

原创 pandas数据分组和聚合操作

《Python for Data Analysis》GroupBy分组运算：split-apply-combine(拆分-应用-合并)DataFrame可以在其行（axis=0）或列（axis=1）上进行分组。然后，将一个函数应用到各个分组并产生新值。最后，所有这些函数的执行结果会被合并到最终的结果对象中去。GroupBy的size方法可以返回一个含有分组大小的Seri...

2017-05-24 15:53:53 6409

原创 pandas字符串函数

《Python Data Analysis》pandas中矢量化的字符串函数问题：通过Series的map函数，所有字符串和正则表达式方法都能被应用于各个值（传入lambda表达式或其他函数），但是如果存在NA就会报错。解决： Series有一些能够跳过NA值得字符串操作方法，通过Series的str属性可以访问这些方法。矢量化的字符串方法：方法说明 cat 实现元素级的字符串

2017-05-22 21:05:58 8533

原创 Python字符串操作

《Python for Data Analysis》Python 字符串对象方法方法说明 count 返回子串在字符串中出现次数 endswith 、startwith 如果字符串以某个后缀结尾或前缀开头，返回True join 连接其他字符串序列的分隔符 index 返回子串第一个字符所在位置，如果没有，ValueError find 返回子串第

2017-05-22 20:50:17 585

原创 pandas数据重塑

《Python for Data Analysis》数据重塑重塑层次化索引stack：将数据的列“旋转”为行unstack : 将数据的行“旋转”为列旋转pivot：前两个参数值分别用作行和列索引的列名，最后一个参数则是用于填充DataFrame的数据列的列名。如果忽略最后一个参数，得到的DataFrame就会带有层次化的列。相当于用set_i...

2017-05-22 20:22:20 1332

原创 pandas数据加载与合并

《Python for Data Analysis》数据加载read_csv从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号read_table从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符（“\t”）pd.read_csv('ex1.csv')等价于pd.read_table('ex1.csv', sep=',')...

2017-05-22 20:21:10 627

原创 Linux shell 学习

shell script直接执行任务：shell.sh文件必须要具备可读与可执行（rx）的权限：然后可以通过绝对路径或相对路径执行。——会在子进程执行。用source shell.sh执行脚本——会在父进程中执行。判断式若需要使用判断式，可使用test或判断符号中括号[]来处理。常用举例：测试的标志代表意义 -e 该文件名是否存在 -f 该文件名是否存在且为文件（file

2017-05-15 14:40:39 628

原创 Linux 正则表达式与文件处理

grepgrep [-acinv] [--color=auto] '查找字符串' filename参数： - -a:将binary文件以text文件的方式查找数据 - -c:计算找到‘查找字符串’的次数 - -i：忽略大小写 - -n：顺便输出行号 - -v：反向选择，即显示出没有‘查找字符串’内容的那一行 - –color=auto：将找到的关键字部分加上颜色显示‘查找字符串’： -

2017-05-15 14:31:50 1055

原创 Linux Bash 学习

《鸟哥的Linux私房菜》/etc/shells/etc/passwdbasic tonydatacalbcFunctionshistory[Tab]alias: alias:显示所有别名 alias lm='ls -al' or alias rm='rm -i'job control, foreground, background ——{chapter 17}shell scr

2017-05-15 14:29:04 439

原创正则表达式进阶

《正则表达式必知必会》位置匹配边界限定符，可以表明我们想让匹配操作在什么位置（或边界）发生。单词边界：\b，用来匹配一个单词的开始或结尾；\B正好相反。字符串边界：^，定义字符串的开头； $，定义字符串的结尾。子表达式子表达式必须用()括起来。基本用途：把一组字符编码组为一个字符集合。这样的字符集合主要用于精确设定需要重复匹配的文本及其重复次数。另一重要用途：定义回溯引用，见下。回溯引用

2017-05-15 13:34:07 616

原创正则表达式基础

《正则表达式必知必会》正则表达式是一些用来匹配和处理文本的字符串有句话希望牢牢记住：把必须匹配的情况考虑周全并写出一个匹配结果符合预期的正则表达式很容易，但把不需要匹配的情况也考虑周全并确保它们都将被排除在匹配结果以外往往要困难得多。逻辑思维能力（语法是正则表达式最容易掌握的部分，真正的挑战是学会如何运用那些语法把实际问题分解为一系列正则表达式并最终解决。）基本用途搜索和替换元字符有特殊含

2017-05-15 13:33:22 424

原创 pandas处理缺失数据

《Python for Data Analysis》NA处理方法方法说明 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值得容忍度 fillna 用指定值或插值方法（如ffill和bfill）填充缺失数据 isnull 返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值NA,该对象的...

2017-05-09 16:30:17 13674

原创 pandas排序与统计

《Python for Data Analysis》排序sort_index()对行或列索引进行排序In [1]: import pandas as pdIn [2]: from pandas import DataFrame, SeriesIn [3]: obj = Series(range(4), index=['d','a','b','c'])...

2017-05-09 16:27:02 16579

原创 pandas函数应用

《Python for Data Analysis》函数应用和映射将函数应用到各列或行所形成的一维数组上 apply方法In [18]: df1Out[18]: a b c d0 0 1 2 31 4 5 6 72 8 9 10 11In [19]: f = lambda x : x.max() - x.m...

2017-05-09 16:21:54 1189

原创 pandas基础运算

《Python for Data Analysis》算术运算和数据对齐pandas可以对不同索引的对象进行算术运算。例如：当对象相加时，如果存在不同的索引对，其结果的索引就是该索引对的并集。自动的数据对齐操作在不重叠的索引处引入了NA值。并且会在算术运算中传播。In [1]: import numpy as npIn [2]: import pandas as ...

2017-05-09 16:19:51 2253

原创 pandas索引对象

《Python for Data Analysis》索引对象Index对象是不可修改的（immutable），这样才能使Index对象在多个数据结构之间安全共享。In [1]: import pandas as pdIn [2]: from pandas import Series, DataFrameIn [3]: import numpy as npIn...

2017-05-09 16:07:46 1988

原创 pandas入门

《Python for Data Analysis》from pandas import Series, DataFrameimport pandas as pdSeries由一组数据以及与之相关的数据标签，Series的字符串表现形式为：索引在左边，值在右边。如果没有指定索引，会自动创建一个0到N-1的整数型索引。属性： .values 和 .index...

2017-05-09 15:34:03 476

原创 Python字典处理技巧

《Python for Data Analysis》path = 'cho2/usagov_bitly_data2012-03-16-1331923249.txt'import jsonrecords = [json.loads(line) for line in open(path)]time_zones = [rec['tz'] for rec in records if 'tz' in r

2017-05-04 14:22:40 719

Shingle_的博客