自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

饭饭认认米的博客

A fool smile in fall!

  • 博客(30)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据分析框架-AARRR

分析框架之产品成长路线

2022-08-17 00:56:28 480 1

原创 最近的一点工作反思

新公司入职115天了,刚刚参加完试用期结束百阿培训并且去三亚outing了一趟,似乎一切都挺顺利的,工作休闲都有了,突然陷入了一种很困扰的状态。百阿脱产1周+outing4天,占用7个工作日,体验了下现有的岗位没有你依旧照常运行,没有因为你的缺席有一丝波澜,深刻体验到自己只是一个工具人,对接着不那么重要的业务,做着价值感不高的事情;我的困扰:1、感觉自己很闲;2、不知道自己要做什么,怎么做3、没有任何成就感;4、周围的人还蛮优秀,看着差距有着无形的焦虑感; 除了硬性需求,没有人给你安排工作

2021-09-18 16:31:17 283

原创 fbprophet安装过程

首先先吐槽,成功安装fbprophet真的使用了九牛二虎之力,也是最开始没找到正确的方法,一直没用这个方法做于预测,希望能有个好的结论,因为不想要下载Anaconda,一直尝试不使用他进行安装,最终还是安装了它,成功之后回想一下好像也挺简单的呢,之前真笨;环境准备windows10Anaconda3python3.7(安装最新的3.8版本,过程中发现竟然只支持3.8以下的版本)Anaconda3安装后,需要配置环境变量,便于在cmd中调用过程中使用到的命令conda create -

2020-08-26 19:11:50 2834

原创 LTSM循环神经网络过程原理梳理

从神经单元到LSTM循环神经网络

2019-06-18 18:11:29 4377

原创 时常用到linux命令及其他杂七杂八命令

记录一下,部分工作中首次遇到的小问题,当时却花费了很多时间去解决的东西。linux批量关键词删除文件 find /data/work/ptop/ -name '*_201810*' |xargs rm -rfpython调用cx_Oracle包时,定时器不起作用,原因:cx_Oracle需要依赖oracle的ORACLE_HOME环境。环境变量定义时,ORACLE_HOME定义...

2018-10-26 11:47:37 297

原创 评分卡模型验证常用指标

模型训练及验证之前,需进行好坏用户的划分,可通过有贷后表现根据阈值进行划分,其中坏用户定义为1,好用户定义为0.基于此对模型验证指标进行说明。混淆矩阵(confusion matrix)混淆矩阵(confusion matrix) 实际表现 1 0 预测表现 1 TP(true positive 预测正确的坏用户个数...

2018-09-19 16:31:34 5775

原创 《愤怒的小鸟大电影》分析报告

翻看以前的工作记录,发现以前写过的在影片上映之前写的电影分析报告(2016-04-06),觉得还蛮有意思,在这里分享一下,时间匆匆啊,竟然已过两年。1. 项目概况 2. 愤怒的小鸟系列分析2.1. 游戏IP分析《愤怒的小鸟》是由Rovio Entertainment Ltd.开发的一款休闲益智类游戏,于2009年12月首发于iOS,而后在其他平台发行,是一款基于技能的...

2018-04-02 11:51:32 2934

原创 用户画像分析相关整理

前期做了一些用户画像的数据支持工作,都是哪里需要往哪搬,没有进行过系统的总结,总归不是自己的东西,只知道要这么做,却不知为何要这么做,所以在这里进行一个归纳总结。 用户画像一般用于研究当前客户需求以及挖掘潜在客户,用户画像需要结合具体的场景进行分析,不同场景下分析也是存在差异的,自己工作中接触的数据主要为目标客群的消费流水数据,画像分析的内容主要是对当前分析客群基本属性如性别、年龄段、家庭结构,...

2018-01-09 19:47:56 16014 1

原创 分类数据聚类&决策树探索聚类因素-R语言

聚类&决策树

2017-07-21 14:24:03 1615

原创 绘制累积分布图-R语言

绘制累积分布图

2017-07-18 16:00:23 24799 1

原创 喜欢的现代诗 -。-

留下一篇blog摘抄喜欢的现代诗。对于现代诗,是从大一的时候开始喜欢的,在学校图书馆上自习,无意间发现落在书桌上的一本顾城的诗集,好奇心翻阅了一下,竟一下从此喜欢上了,后面不仅仅是顾城,也陆续从学校图书馆借一些其他人的诗集来看。 对于诗,不同的人有不同的看法,或喜欢或不喜欢,每个人都不同,需要尊重每个人的偏好。诗对于我,我是喜欢的,但有时觉得浮躁的自己不配喜欢它,只有心静的时候,才能够品...

2017-07-03 13:03:06 1323 2

原创 随机森林原理-R语言简单实例

随机森林是基于决策树的组合模型,若因变量为分类变量则建立分类判别模型,若为连续变量则建立非线性回归分析模型。随机森林在分类中返回得票数最多的分类选项,在回归中返回所有决策树输出的平均值。随机森林是由多个回归树组合而成的模型,广泛用于分类研究,随机森林回归能够有效的分析非线性、具有共线性和交互作用的数据,效果要优于多元线性回归,并且不需要预先给定模型的形式假定,回归效果比回归树更好。随机森林在实际应用

2017-04-07 19:34:37 25569 5

原创 hadoop2.6.5集群安装及mapreduce测试运行

- 环境准备系统:centos6.5 虚拟机:VMware Workstation jdk文件:jdk-7u67-linux-x64.tar.gz hadoop文件:hadoop-2.6.5.tar.gz

2017-01-22 23:27:11 9279

原创 聚类算法总结

最近整理一下聚类相关的东西;数据说明凸集:在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内;非凸(non-convex)数据:类比上述可知;距离&相似度首先我们要了解衡量对象间差异的方法对象可能是一个值,也可能是序列,聚类的方式的大都通过距离或相似度来衡量,常用距离如下: 对于两个对象的n维指标(x1,x2,….xn)|(y1,y2,…

2016-11-23 18:40:01 1866

原创 多指标综合评价方法汇总

写在前面上学的时候,有一门综合评价的课程,那时候没觉得以后会用到它,现在才发现是那么实用,实际应用中如果采用单指标进行评价给人的感觉总是有偏驳的,除非是那种极其可靠且明确其重要性的指标。近期基本上把老课本里的方法翻了个老底,以前觉得这门课程似乎挺难的,现在看来只是以前没有深入的好好看,方法简单且实用。 综合评价的方法一般是主客观结合的,方法的选择需基于实际指标数据情况选定,最为关键的是指标的选取,

2016-10-27 22:59:08 106979 9

原创 文件夹下批处理excel-R语言

R语言处理excel文件

2016-09-21 23:11:57 2838

原创 分词及词云图绘制-R语言

分词的方法模型很多种,最大概率法、隐式马尔可夫模型、索引模型以及混合模型等,字典的类型也分为很多种,混合模型的结果一般情况下效果较优,下面利用R语言简单绘制云图,达到可视化的效果。

2016-09-18 22:59:12 8811 1

原创 网页数据爬虫-R语言

最早接触爬虫是利用java写脚本,后来自学了利用python进行爬虫来做入门,会用scrapy,最近用了下R,找了几个不同类型的字段获取,当作好玩吧。

2016-09-18 21:53:11 11193

原创 绘制地图&热力图-R语言

对于地域信息的描述,采用地图的形式展现会比语言描述或者一般的条形图、饼图更直观,近期需要展现不同地区数据差别,可以借鉴一些网站例如地图惠等导入数据制作,但很多都有一定限制,例如注册收费等,故利用R进行了绘制。参考openthings的博客成功制作出了漂亮的地图,他的博客写的很详细,很赞。

2016-09-17 21:11:08 36908 36

原创 原来,我是这么幸运

我们都很幸运

2016-09-11 22:58:34 910

原创 复杂网络笔记-R语言

最近学习了下复杂网络相关的东西,总结了部分基础的理论,与使用R语言igraph包,总结如下,还需要继续深入,目前只学了皮毛。

2016-08-25 14:21:58 31716 5

原创 面板数据分析步骤及流程-R语言

面板数据模型选择及分析步骤;附R语言代码

2016-08-16 16:49:55 109675 28

原创 python单页面简单爬虫实例--百度风云榜

最近需要收集百度风云榜上的数据,手工的方式实在是让人受不了,自学了python一段时间,就利用python写了一个百度风云榜单的爬虫程序,遇到了各种格式转化的问题,好在一个一个都解决了,能够成功爬取到数据,每天执行一次数据就ok了,本来10分钟的事情,现在2s就解决了。

2016-08-08 23:28:33 2117

原创 R语言try函数

简介 利用R语言进行编程的时候,想像java里面一样类似采用try···catch的方式捕捉错误。平时对于一些错误的处理方式一般都是用if···else来处理,但是有些情况if···else操作起来并不是那么顺溜。

2016-08-07 13:26:35 16049

原创 ARIMA模型-R语言

利用ARIMA模型进行时间序列预测。

2016-08-07 11:44:53 6340 1

原创 世界尽头与冷酷仙境(村上春树)-摘录

最近读了村上春树的《世界尽头与冷酷仙境》,大半本书读下来,感受到浓浓的寂寥与沉闷,整本书的基调似乎都是冷清的,找不到合适的话语,在我的脑海中就是人烟稀少、人迹罕至、沉默还有忧伤,还有就是一根针掉到地方都能引起破冰的样子。中间世界尽头的部分让我联想到自己的内心,围墙是我自建的壁垒,不断找寻真我,或许忘记初心,永远走不出自己的围墙,或许打破壁垒及自我禁锢,找寻真我,寻求心灵的自由。

2016-08-07 11:23:35 2167 1

原创 排行模型验证的方式

前言模型的实现固然重要,但是模型的验证也是不可或缺的一块。只有模型,没有验证就行代码不经测试直接上线一样的道理,质量是无法保证的。

2016-08-03 15:59:22 853

转载 热度TopN排名算法的设计

热度TopN排名算法的设计转载于http://www.jianshu.com/p/44bee121463a

2016-07-27 18:16:59 7685 1

原创 冷却算法综合排名改进模型

作品一般都有一定的时效性,作品热度随时间的衰减,热度下降,当然那些逆天优秀作品除外。参考投票模型中的牛顿冷却算法并进行改进,结合实际反应左瓶的热度数据指标及指标特性对文创作品进行热度排名。牛顿冷却算法牛顿冷却定律:物体的冷却速度,与其当前的温度与室温之间的温差成正比。

2016-07-22 23:03:44 4666

原创 冷却算法综合排名改进模型-R实现代码

近期对投票模型中的牛顿冷却模型结合具体数据及含义进行了改进,并通过R语言进行了实现,模型逻辑并不复杂,在之后的博文中会添加上去,代码中存在各种条件句是由于实际可操作数据中存在各种情况,数据来源于爬虫累计数据。

2016-07-22 22:06:34 732

mysql基本常用操作

mysql基本常用操作

2016-07-22

r语言汇总函数

基于r软件 用于数据汇总、数据处理、适合于初学R语言的

2015-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除