- 博客(17)
- 资源 (2)
- 收藏
- 关注
原创 win7下使用mitmdump爬取得到app数据并存入mongodb
环境:win7时间:2019-10-1最近在学习爬取app数据,参考崔庆才大佬的书 《python3网络爬虫开发实战》中的第十一章在安装好mitmdump后,运行自定义脚本开始抓包却出现了错误。现在记录下遇到的问题:安装mitmproxypip install mitmproxy按照网上的教程安装证书,给手机也安装证书启动mitmproxy(win换环境下,无法直接开启mitmp...
2019-10-01 15:20:13 713 2
原创 pandas按列、行求和
用透视表创建的表格df_pt = pd.pivot_table(table,index=["渠道"],values =['推广', 'E类', '0-17岁', '18-23岁', '24-30岁', '30岁+', '疾病哺乳类', '删除类', 'B类', '男性'],aggfunc = np.sum)现在想要对L,Y渠道的每个类别的数据求和,即按行求和df_pt[...
2019-09-15 17:44:58 55355 1
原创 python中的计算时间差方法 seconds和total_seeconds()
import datetimet1 = datetime.datetime.strptime(“2016-08-24 10:30:00”, “%Y-%m-%d %H:%M:%S”)t2 = datetime.datetime.strptime(“2016-08-24 12:30:00”, “%Y-%m-%d %H:%M:%S”)interval_time = (t2 - t1).second...
2019-09-12 17:47:25 339
原创 爬取CRM上的各部门业绩
爬取的数据用于制作报表等用途import requestsimport jsonimport randomimport jsonpathimport pandas as pdfrom bs4 import BeautifulSoupfrom time import sleepimport datetimefrom datetime import timedelta'''从c...
2019-09-08 14:23:32 546
原创 利用pandas找出全部的重复值
需求:公司每天都会从其他的渠道获取到一些客户资料,我们会从中去掉跟我们本身的资料库对比,剔除掉重复的值,重复的资料有的是多个,并且是不同渠道的,所以要找出全部重复值。资料库里边有10w条数据左右,使用excel匹配运算太慢,故使用pandas处理重复值。import pandas as pddef loadorders(): #加载导入汇总表 print("正在加载《导入...
2019-09-08 14:19:38 10663
原创 利用pandas处理订单数据并匹配组别和渠道
需求:每天从公司的CRM系统导出的订单数据并不能直接拿来使用,并且缺少下单人员所属的组别和该客户的渠道来源,原始办法是利用excel根据订单编号利用函数关联多个表格返回需要的订单数据,每天这样粘贴复制显得繁琐,数据容易出错或者漏单,下面用pandas进行操作。源数据(订单主表):----CRM系统导出的订单数据----每一天的数据在150单左右处理后的数据形式:至于为什么要处理成这...
2019-09-08 11:56:58 569
原创 Tableau 2018.3破解教程(截止2019-08-18)试用过期也可用
本教程在win7 Tableau 2018.3 环境下 测试成功有两种情况:(一):本电脑第一次安装tableau步骤:去官网下载安装包,然后安装成功。不要双击打开软件打开安装目录 ,把 tabui.dull 覆盖进文件目录。打开软件就可以破解成功了(二):试用期过期下载 Trial-Reset 软件下载完成打开。打开成功后点击左边名为flexnet的按钮先扫描后 清...
2019-08-18 14:58:04 8888
转载 pyechart 与jupyter,图表显示空白的解决方案
https://blog.csdn.net/zqs305082800/article/details/84581299
2019-08-02 16:34:39 5029
原创 修改Dataframes中index,columns的名称
修改Dataframes中index,columns的名称方法一: 1. df.index=Series(["a","b"]) 2. 使用map函数映射 df.index =df.index.map(str.upper) 3. df.index.map(lambda x : x.upper) 4. columns 同理方法...
2019-08-01 17:31:38 1222
原创 python 构造时间 本月 上月 本周 上周
1、由日期格式转化为字符串格式的函数为: datetime.datetime.strftime()2、由字符串格式转化为日期格式的函数为: datetime.datetime.strptime()import datetimefrom datetime import timedelta#今天datetime.datetime.now()#昨天datetime.datetime.n...
2019-07-26 16:01:47 466
原创 python读取excel文件中日期变为浮点数
问题描述:用python把excel里面的数据导入数据库,其中excel数据包含文本,数值,日期。用xlrd模块读取excel数据时,python读取日期,显示为浮点数,导致入库失败。from xlrd import xldate_as_tupleimport datetimedef handle_date(date): print(date) tuple = xldat...
2019-07-24 17:53:06 6002 2
原创 用matlplotlib可视化 图表中中文显示为方框的问题
使用工具:jupyter notebook环境:Windows 7在代码顶部添加一下代码from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 其...
2019-07-23 16:41:04 281
原创 python read_csv时开头出现\ufeff
发现问题:用pandas读取csv文件时,df,head()一切正常。接下来我想把宝贝那一栏删掉,但是显示:ValueError: labels [‘宝贝’] not contained in axis明明这个字段是在的。然后我就把dataframes的columns打印出来。很奇怪出现\ufeff 字符然后问度娘~~~解决办法:read_csv时添加上参数 encoding=...
2019-07-23 15:55:20 1886 2
order_info_2016.csv
2019-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人