python、pandas学习
IBoyMan
不奋斗,你的才华如何配上你的任性;
不奋斗,你的脚步如何赶上父母老去的速度;
不奋斗,世界那么大,你靠什么去看看;
一个人老去的时候,最痛苦的事情,不是失败,而是我本可以。
展开
-
python、pandas文件合并、数据去重
目录下有如图60个txt文件,每个txt文件里的数据大概有7000万行目的:把每个txt文件里的数据去重后合并60个文件为一个总文件,然后把总文件里的数据按第一列、第二列分组第三列求去重后出现的次数每个文件的内容如下:代码如下:# -*- coding:utf-8 -*-from datetime import datetimeimpor...原创 2018-02-27 12:42:38 · 2143 阅读 · 0 评论 -
Pandas里groupby的应用
Groupby是pandas用于数据分析一个强大的动能函数,很多对数据的清洗、转换、聚合都需要用到。具体功能会一一介绍,博客也会慢慢更新。一:获取groupby分组后每组的具体数据获取分组数据:(每一个分组也是一个DF)...原创 2018-05-12 10:35:05 · 2703 阅读 · 0 评论 -
pandas里applymap、apply、map、agg、groupby、自定义函数的使用
Pandas里三种调用函数应用的方法: 1:apply作用于DF的列或行 2:applymap作用于DF的所有元素 3:map作用于Series的所有元素 agg函数很多情况下都是和groupby组合使用,通常指代分组聚合,它和apply的区别不是很明显,一般当调用自定义函数,没有聚...原创 2018-05-10 18:13:33 · 8724 阅读 · 0 评论 -
python处理大数据文件,set、enumerate使用,python传参,获取文件路径
### enumerate(ad_set,start=1)### start=1:指定索引起始值#-*- coding:utf-8 -*-#唯一号码转家庭、非家庭#编写者:zqm#日期:20170810#功能:分别找出家庭,非家庭用户,家庭的编号转jz编号,非家庭重新编号且相同编号相同#####################################...原创 2018-03-05 10:59:47 · 1179 阅读 · 0 评论 -
python进行拆分大文件
python按指定行数把大文件进行拆分如图大文件有7000多万行,大小为16G需要拆分成多个200万行的小文件代码如下:# -*- coding:utf-8 -*-from datetime import datetimedef Main(): source_dir = '/jz_yuanshi_list0206.txt' target_dir = '/...原创 2018-03-02 09:25:42 · 18758 阅读 · 12 评论 -
python pandas 实现SQl的count(*),count(distinct **)
实现也非常简单,不过多啰嗦,见代码注释:pv uv 代指 select host,count(*),count(distinct ad) from table group by ;# -*- coding:utf-8 -*-import pandas as pdfrom datetime import datetimedef Main(): print("开始。。。。。...原创 2018-03-09 10:43:59 · 17187 阅读 · 0 评论 -
python读写文件去重、RE、set的使用
Python读写文件是去重存储数据,RE、set的使用# -*- coding:utf-8 -*-from datetime import datetimeimport redef Main(): sourcr_dir = '/11yue_all.txt' target_dir = '/regular_get.txt' uset = set...原创 2018-02-28 16:00:33 · 2407 阅读 · 0 评论 -
Python解析、提取url关键字
解析url用的类库: python2版本: from urlparse import urlparse import urllibpython3版本: from urllib.parse import urlparse import urllib.request 研究了不同的url规则发现:只要在搜索关键字是用=嫁接的,查询的关键在解析后的query...原创 2018-03-08 13:12:14 · 9248 阅读 · 0 评论 -
pandas里map、lambda、merge的使用
pandas里map、lambda、merge的使用注意:map()为Series的函数,DataFrame不能使用,DataFrame用applymap()# -*- coding:utf-8 -*-from datetime import datetimeimport pandas as pddef Main(): print("开始。。。。。") ...原创 2018-02-27 18:26:08 · 4573 阅读 · 0 评论 -
shell加python实现程序自动化控制
为做到数据的实时传输(实时:当前时间传输上一个小时的数据),shell用于控制整个流程,python用于处理数据。shell代码如下:#bin/bash########### 学车运行脚本## 编写者:zqm## 日期:2018-04-04## 调用方式:nohup sh duduxueche.sh day/hour > ../log/duduxu...原创 2018-05-14 10:23:09 · 3674 阅读 · 0 评论