自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 如何搭建用户生命周期模型

用户生命周期模型已经成为系统化运营的一个重要方法,近年来逐渐被应用到了互联网产品分析中。互联网中用户生命周期模型通常以对产品接触程度为依据划分用户类型,然后针对各类用户制定有效的运营策略提供科学依据,达成延长用户生命周期、提升用户价值的目的。本文通过理论及举例来说明生命周期模型的重要应用。用户生命周期模型借助可量化指标来划分用户生命周期各个阶段。而用户生命周期指用户从开始接触至离开产品的整个过程。

2023-04-21 10:51:33 2114

原创 AB测试基本原理

比如某页面的点击率,我们需要先计算页面的点击数和展现数,两者相除才能得到该指标。在实际的运营中,流量是稀缺资源,产品迭代时代时,会有很多AB测试需要同时做,而产品的流量又是有限的,因此需要对流量进行充分切割。此外还需要考虑一些用户周期的情况,例如用户在工作日和周末特征不一样的情况,那么周期就需要1个完成周。为什么这里要区分不同类型的观测指标,因为在接下来的样本量计算中,这两类指标的样本量计算有所差别。代表的是样本数据的标准差,衡量的是整体样本数据的波动性,可以计算样本的标准差计算得到。

2023-04-15 18:11:23 1881 1

原创 jupyter的比较好用的扩展插件

上面安装好之后,打开jupyter你会发现还没有首页的那个选项出现,这是因为还需要把安装JavaSctript和CSS文件复制到jupyter服务器的目标搜索中,使用下面命令。jupyter目前是数据分析师最友好的IDE之一,在使用jupyter的时候,会有一些好用的插件,可以极大的方便使用。前提要求,已经安装好了python和jupyter。...

2022-08-01 22:12:36 533

原创 图解2022年城市人口迁移趋势

现在已经是疫情发生后的第3个年头了,截止当前疫情已经成为一个常态化的趋势,在疫情的影响下,各个行业都在发生变化,不管是之前的教培类落幕还是当前互联网裁员大潮,都是和经济环境变化有关。不管什么时候人口都是城市发展的一个重大要素,今天我们就来看下2022年,城市人口有了哪些新的变化。今天我们就是用Python爬取人口迁移的数据,一看究竟。...

2022-06-29 00:50:10 3685

原创 pycharm的菜单栏不显示解决方式

pycharm主菜单不显示问题

2022-04-03 21:18:07 9638

原创 常见的python连接数据库包

在日常的工作学习中,重复的在数据库中抽取数据,然后使用python读取处理,不仅繁琐,且效率低下。那么如果有条件直接使用python读取数据,效率就会有明显提高。同时在一些公司,为了某些数据的保密性,使用线上数据线上处理也变的比较流行了。下面汇总了一些常见的数据库连接使用方法,希望可以在一定程度上帮助大家。常见的数据库及连接包下表中是常用的数据库及连接表使用的包:数据库连接数据库python包hivepyhive或impylamysqlPyMySQLoracle

2021-11-23 23:35:26 3116 1

原创 AttributeError: ‘ElementTree‘ object has no attribute ‘getiterator‘

使用python3.9读取excel时报错AttributeError: 'ElementTree' object has no attribute 'getiterator'出现错误的原因解决方法出现错误的原因在新版python3.9中,windows中使用的更新删除了getiterator方法,所以我们老版本的xlrd库调用getiterator方法时会报错。AttributeError: 'ElementTree' object has no attribute 'getiterator'解决方

2020-12-10 13:04:51 35284 30

原创 python画蛛网图(雷达图)

一、概念雷达图是一种由一系列等角辐条(称为半径)组成的图表,每个辐条代表一个变量。轮辐的数据长度与数据点变量的大小相对于所有数据点上变量的最大大小成正比。绘制一条线,连接每个辐条的数据值。这使该图块具有星形外观,所以又叫星图。二、用途主要用途观察最相似,是否有离群点。多用于控制质量改进,便于观察性能指标。也常用于表示技能的长处和短处。三、画图"""======================================Radar chart (aka spider or star char

2020-11-20 11:22:12 7772

原创 python不显示警告信息

在python中,有时会出现许多警告,主要是因为我们的程序某些地方是会出现问题的,但是有时候我们需要这样的代码来简化我们的工作;这个时候过多的警告就显的比较招人烦,这是下面的几行代码就起了作用。注:不到必须用的时候,我们尽量不用这写代码。因为这样会让我们的代码非法话,频繁使用不利于我们的代码水平。import warningswarnings.filterwarnings("ignore")...

2020-10-12 15:16:56 2749

原创 python中查看源码

有时候在jupyter上进行数据处理时,我们想看下函数的源码,就显的比较难。这里可以通过这个小方法方便简单的查看。例如我们查看pandas的文件,可以这样:with open(pd.__file__,'r') as f: print(f.read())...

2020-08-10 11:31:26 727

原创 python可视化(一)-条形图

数据化运营分析不止于“分析”,数据可视化也是其中一个重要的环节。可视化图形是每份报告的必备元素,这些图形包含不同的图形类型。这里我们主要讨论下python中使用matplotlib画条形图的类型。一、条形图的基本元素垂直条形图:matplotlib.pyplot.bar(x,height,width = 0.8,bottom = None,*,align =‘center’,data = None,** kwargs )水平条形图:matplotlib.pyplot.barh(y,width,h

2020-08-02 14:52:15 2081

原创 pandas中category类型的数据处理

pandas中category类型的数据用途和特点常见的问题处理Categorical 数据用途和特点category是pandas中定义的一个数据类型,相当于R中的因子。可以对特点的类型数据进行按照自己的意愿进行排序,特别是我们在处理数据是需要对字符串进行排序时,有时候默认的顺序真的很无奈。这个时候就是这个类型该入场的时候了。下面我们看下这个类型的具体使用情况。常见的问题处理在日常数据处理中使用pd.cut或pd.qcut时,默认分组标签就是category类型,不知道你处理时是否头疼过。不过这个

2020-07-24 17:51:21 18380

原创 ubuntu19软件安装

ubuntu软件安装ubuntu百度网盘安装ubuntu中vi编辑文本时方向键输出文字ubuntu中安装微信ubuntu百度网盘安装百度网盘安装比较方便,可以使用以下操作:首先下载软件:wget http://issuecdn.baidupcs.com/issue/netdisk/LinuxGuanjia/baidunetdisk_linux_2.0.1.deb然后安装:sudo dpkg...

2019-11-13 23:39:53 421

原创 ubuntu系统使用笔记

ubuntu系统使用笔记ubuntu系统是一个非常棒的系统,对使用者非常友好,能够更充分的把精力用到需要工作中去。虽然系统中的游戏不如windows系统中丰富,但是相信大部分人使用ubuntu不是冲着这个游戏功能去的。这篇主要是记录下使用ubuntu中遇到的问题,就是俗话说的:“好记性,不如栏笔头”吧。一、系统优化一般情况下,ubuntu系统有着极佳的性能,不会因为长期使用而变得很慢,但是谁...

2019-11-03 18:05:25 195

原创 hive中分析、窗口函数

一、分析窗口函数分析函数用于为行定义一个窗口,它对一组值进行操作,不需要使用GROUP BY子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。在SQL语句中,很多查询语句需要进行GROUP BY分组汇总,但是一旦经过分组,SELECT返回的记录孢数就会减少。为了保留所有原始行记录,并且仍可以进行分组数据分析,分析函数应运而生。分析函数与聚合函数计算方式一样,分析函数也是对行集组进...

2019-10-23 17:48:03 638

原创 /data/python_packages/site-packages-home/ipykernel_launcher.py:2: SettingWithCopyWarning警告处理方法

在使用pandas的数据框时,我们经常会对数据筛选后,进行数据分析,这时对筛选的结果进行赋值时常见的操作,但是这时常常会出现这样的警告。/data/python_packages/site-packages-home/ipykernel_launcher.py:2: SettingWithCopyWarning:A value is trying to be set on a copy of ...

2019-10-22 15:37:52 1876

原创 python中*args和**kwargs不定量传参

在python函数编写中,传参是经常使用的,有时候会对*args和**kwargs有些迷惑。下面我们来看下。先来一个列子,这样就好理解些:def example(var, *args, **kwargs): print('常规变量:',var) print('*args:',args) print('**kwargs:',kwargs)example('1',[12...

2019-10-20 17:30:00 765

原创 python的日期时间格式处理方法汇总

在处理数据和清洗数据时会遇到各种情况下的时间格式,有时会因处理时间格式花费较多的时间,这里对python最终较为常用的时间格式整理出来。一、常用的日期时间模块大部分情况下,我们使用的time、datetime,pandas三个包基本上就能完成绝大多数的时间格式问题。这里主要按使用场景分类,不按包分类。python中时间日期格式化符号:%y 两位数的年份表示(00-99)%Y 四位数的年份...

2019-10-18 16:53:05 3702

原创 hive中日期格式转换

hive中时间日期处理日期时间格式大致分成时间戳和日期时间格式互转,字符串转化成日期时间格式,日期格式之间的转化一、时间戳和日期互转1、unix_timestamp函数,日期转时间戳当函数参数为空时,返回当前时间戳。select unix_timestamp() ---1571282494不输入时间格式,默认’yyyy-MM-dd HH:mm:ss’格式select un...

2019-10-17 12:06:56 11952

原创 matplotlib中文乱码问题

matplotlib中文乱码问题一、通常情况下乱码问题可以使用matplotlib设置参数解决import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #解决中文乱码plt.rcParams['axes.unicode_minus']=False. #解决符号显示问题一般情况下这个都能解决问题,...

2019-10-16 12:15:45 291

原创 简单的开源文档服务dokuwiki搭建和配置

Dokuwiki是一款简单,轻量,支持PHP即可使用,插件丰富,权限控制强大,完全免费,有编辑页面,不懂代码也可以使用。缺点是缺乏对Markdown的原生支持(即使装了插件,也无法完全解析Markdown)。但是不失为一个比较方便快捷的应用工具。一、安装1、服务环境dokuwiki是php开发的简易平台,也就需要一个解析php的环境。即需要安装一个web service。这里直接安装一个xa...

2019-08-27 16:28:38 1303

原创 常用linux命令

在工作中用到的linux命令,记录一下:1、查询在运行的线程ps -aux | grep modeler #查询modeler用户的所有任务2、清空日志:> log.log

2019-07-31 14:00:55 93

原创 Python字符串格式化

在很多情况下,我们需要对字符进行格式化,格式化的方法也有许多中,我们可以选择自己比较喜欢的方法。这里我们主要基于Python3.6以上的版本1、字符串拼接的方法str1 +str(目标字段)+str2这个比较交单,直接拼接就行。2、传统型%语言比较苍白,直接上例子:传入整数a = 100print( "hello ,this is %d" %a)hello ,this i...

2019-07-30 11:47:28 181

原创 oracle中的时间运算

在oracle中进行时间运算是比较方便的,下面总结下oracle中时间运算的技巧:1、日期加年、月select sysdate,add_months(sysdate,12) from dual; --加1年select sysdate,add_months(sysdate,1) from dual; --加1月2、日期加天、小时、分和秒加1天:select s...

2019-06-13 19:22:49 4133

原创 TypeError: xxx takes 1 positional argument but 2 were given解决方法

今天为了这个异常调试了好长时间了,不用类直接测试不报错,但是用类的方法总是报错。查了一下资料,错误主要是我的函数没有加self。详细情况如下:1、问题class replace_html (object): def __init__(self,name=''): #读取oracle配置 conf = gcon(bv.config_dir) ...

2019-06-06 16:17:59 127392 12

原创 python中DataFrame多重索引问题

在Python数据处理中如果实现excel透视表中的功能,则多重索引问题就比较突出了。近来为实现Python自动邮件,需要对数据进行透视表功能,遇到多重索引和多表头问题,下面总结下用法。一、多重索引常规的单索引这里就不多赘述了,主要来看下多索引的问题。pd.pivot_table产生的多重索引问题。大概数据结构如下图所示:当我们要选中其中的某一行时,可以通过一下集中方法实现:(1)根据外...

2019-06-05 12:25:34 8396

原创 python3 + selenium进行模拟登陆

网络爬虫——模拟登陆最近在进行一个自动邮件,从网页上爬取内容,自动完成邮件发送的工作。但是在模拟登陆这方面踩过好多坑,在这记录下,以供参考,不足之处欢迎赐教。一、环境采用window中python3.6,selenium,和Chrome版本 74.0.3729.169,值得注意的地方Chrome版本要与chromedriver相对应,否则就会出现错误(很重要,我在这个坑转悠半天)。其他的就很...

2019-06-01 10:49:03 3241 1

翻译 网络爬虫笔记

爬虫采用python3 windows平台上chapter 网页抓取1、背景调查包含内容:(1、检查robots.txt大多数网站都会定义robots.txt文件,了解具体有哪些限制。主要方式,URL/robots.txt查看(2、检查网站地图,sitemap通过robots.txt中,提供的sitemap。不过一般网站没有提供,用处不大。(3、估算网站大小估算网站大小,经常...

2019-05-25 20:24:33 244

翻译 python正则表达式

正则表达式正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。在自然语言处理,爬虫等方面有着重要的作用。废话少说,我们直接看内容。1、语法下面一个关于正则表达式的一些规则。2.验证工具正则表达式的学习少不了联系,自己埋头练习比较枯燥,这里找到一个比较好的线上验证。网址https://regexr.com/。比较好用。3.挑战与提升¶长期做自然语言处理的同学正则表达式都...

2019-05-19 19:55:58 204

转载 过抽样

转Python sklearn 实现过采样和欠采样2018年07月25日 13:49:14 WANG_DDD 阅读数:10022Imblearn package study准备知识1 Compressed Sparse RowsCSR 压缩稀疏的行过采样Over-sampling1 实用性的例子11 朴素随机过采样12 从随机过采样到SMOTE与ADASYN13 SMOTE的变...

2019-05-18 11:35:53 1164

原创 python的sys模块的用法

python3的sys模块1、sys.argv[i]sys.argv[0] 返回脚本本身。i大于0时,表示接收第i个系统传的值。例如有一个test.py的脚本:#coding:utf8import sysdef print_sys(): var = sys.argv[0] var1 = sys.argv[1] var2 = sys.argv[2]if __name__ == ...

2019-05-10 09:30:08 201

原创 python日期格式处理

python日期格式处理主要包import datetime ,import time一段时间不用总是忘记日期格式处理的函数,记录一下:###字符转化为日期startTime = datetime.datetime.strptime(startDate, ‘%Y-%m-%d’).time()endTime = datetime.datetime.strptime(endDate, ...

2019-05-10 00:09:48 946

原创 python安装包中错误问题笔记

python中pip更新1、安装包pytorch中总是提示ModuleNotFoundError: No module named 'numpy.core._multiarray_umath'2、pip升级失败1、安装包pytorch中总是提示ModuleNotFoundError: No module named ‘numpy.core._multiarray_umath’主要是因为,pyt...

2019-05-07 00:20:32 367

原创 逻辑回归的特征离散化

逻辑回归的特征离散化很多时候我们在做评分卡的时候,需要对数据进行离散化。那么逻辑回归为什么要进行特征离散化呢?主要是由于以下几个原因:1、模型稳定性和鲁棒性。离散后的特征能够去除噪声,对异常值不再敏感,可以加强模型的稳定性。例如在评分卡中有一个变量收入手机使用时长5000个月,这个数据明显异常,但是我们对变量分箱以后,例如>50是一个分箱,那么这个值对模型的预测结果就没有太大的影响了。...

2019-04-02 00:57:46 1681 6

转载 roc曲线

ROC曲线和auc维基百科上roc是受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在两种不同的判定标准下所得的结果而已。受试者工作特征曲线就是以假阳性概率(False positive...

2019-03-26 00:19:21 12034

原创 问题笔记

问题笔记今天在数据处理中遇到了几个小问题,在这里记录下,以便以后查询用:1、逻辑回归模型应用中报错,缺失值处理了,还出错,主要是inf值出现的错误。这主要出现在,变量用到了除法了。2、pandas数据框去重,总是忘了函数怎么写的了,记录下:DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)data.is...

2019-03-23 20:55:26 119

转载 Vintage、滚动率、迁移率的应用

Vintage、滚动率、迁移率的应用互联网金融中,风控尤其重要。风控模型的实施需要定义Y,跟踪分析客户的风险情况,本文收藏了一份关于vintage、滚动率、迁移率的应用。本文转:https://mp.weixin.qq.com/s/fcfL4PmS1w63pthL_M2daA一、VintageVintage源于葡萄酒酿造,葡萄酒的品质会因葡萄生长的年份不同、气候不同而不同。Vintage分...

2019-03-17 00:10:07 3281

转载 评分卡流程

偶尔浏览收藏了一个做评分卡的流程图可以访问原网站:https://mp.weixin.qq.com/s/WFirxjUpbSlpsyiQbSRgWg

2019-03-15 16:04:44 661

原创 评分卡分箱单调性

评分卡分箱单调性一、平分卡的使用场景和要求在信贷场景中,评分卡是以分数的形式来衡量风险几率的一种手段对未来一段时间内违约/逾期/失联概率的预测,通常评分越高越安全根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡。由于评分卡在业务场景中有着很好的可解释性和区分度,在互联网金融风控中作用巨大。评分卡的一般要求有:(1)稳定性当总体逾期/违约概率不变,分数的分步也应该没有改变...

2019-03-14 17:02:35 3524

原创 Oracle中匹配一个字段中有多个字符匹配的解决方法

Oracle中匹配一个字段中有多个字符匹配的解决方法1、问题例子1、问题例子现在需要对表中的(如下图中红色框的字符串)字典码,转化成值。如:D0801–> 虚假电话。转化后的结果是 :2、解决方法把目标表变成:select apply_id,regexp_substr(third_code, ‘[^,]+’, 1, level, ‘i’) as third_code...

2019-03-10 01:31:44 9019

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除