自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Weka 的非监督属性 filters介绍(一)

第一篇博客,想给大家介绍下Weka的非监督属性 filters。Weka 的filters(过滤器)还是非常强大的哟,感觉虽然不如python的属性处理方式那么灵活,但是也是非常好用的。好了,开动吧!对了,不要忘了劳动不易,打赏随意哟! **1、Add** Add的作用是添加一个全部是缺失值的属性(为什么要添加一个全是缺失值的属性呢,没搞明白。) **2、AddCluster**...

2020-04-01 17:16:33 781 1

原创 图计算在电信业中的应用

学习了图计算的计算框架,也阅读了国内国外的一些文献,发现图计算在电信业真的有着广泛的应用。特别是图的一些算法,比如cluster发现,community的发现,shortest path的计算等等。今天就列举几个简单的应用。一、营销端的应用1.community detection在电信业中,每个在网用户通过电话、短信、以及其他通信方式交流,可以形成一张巨大的图。而通过这张巨大的图,我们可以发现不同的cluster或者community、以及团等社交社群。​如上图,就可以发现明显不同的2

2022-03-26 11:28:56 2786

原创 电信业服务流程设计--用例图

这里讲的是软件设计模式与服务流程设计的交叉应用。那么对于电信业这么内卷的行业,怎么样设计服务流程呢?首先当然还是确定价值主张。什么叫价值主张呢,就是你区别与竞争对手的东西,企业的核心所在。举个例子,当90年代的中国洗发水市场还处于被便宜的国产蜂花洗发水充斥的时候,宝洁进驻中国市场,宝洁的价值主张是"宝洁公司,优质产品"。那个时候中国慢慢的摆脱贫困,走向富裕,一部分人愿意为了质量而选择高价。宝洁推出各种产品线的同时,采用大量广告,把自己的价值主张传递给用户,大力渲染自己是优质的产品。迅速占领中国市场。..

2021-08-01 16:59:33 544

原创 写给甲方的web应用基础

最近学了软件工程,发现对于甲方来说,细致的估算出工程量,从而提出招标限价,并且在验收阶段进行较好的工程验收,是个问题。最近又学了web应用基础,现在就web应用从设计到验收交付测试,提出自己的见解。首先还是立项,涉及到立项,就要进行详细的商业论证。商业论证要就web应用项目从商业的阶段进行详细的评估,一般有这几个部分:内容概要、项目理由、可选商业方案、预期收益、预期负收益、时间、成本、投资评估、主要风险。我个人理解,就是阐明这几个要点:第一是项目的内容,第二是为什么要进行这个项目,第三是项目方案,第四是

2021-04-03 18:55:00 108

转载 数据分析平台下的调研结果有效性测评

一声长叹,不知道什么时候人生变成了受气包,不知道说什么,只剩下无奈苦笑了。今天分享一个调研结果有效性测评,这个应该是比较专业的测评了,据我所知一些心理学上的专业测评量表就是用的这些测量方法(不然人家专业心理测评量表是咋研究出来的呢?难道随随便便问几个问题,找几个人来回答,就能辨别出是否有心理疾病?)一、信度什么叫信度呢?就是进行重复的测量,产生相同结果的一致性与准确程度。信度可以从3个方面来分析:稳定性、内在一致性与等价性。稳定性分析,叫做重测信度,就是编写好量表后,叫同一波人,做一次测量,在隔

2020-06-25 16:34:24 2826

原创 大数据平台下Spark进行产品推荐

本文采用ALS算法进行产品推荐。对于运营商来说,加上第三方增值业务,产品数量多至上千,那么如何了解消费者的倾向,对消费者进行产品推荐呢?针对运营商可以有较为详细的客户信息,可以有很多种方法。本文介绍的方法是基于消费者的购买行为进行推荐,采用电商平台采用较多的ALS算法。ALS算法的原理很多文档都有讲过,就不啰嗦了,大致就是user-item评分均值会是一个维度极高的稀疏矩阵,ALS就是将user-item矩阵分解为2个低维矩阵的乘积,达到降维的方法,再使用这两个低维矩阵的乘积,对用户评分进行预测。S

2020-05-24 17:50:06 353

原创 Pig Latin语句进行简单的营销活动分析

踩了几个坑,电脑又中了毒,但是终于把程序调通了,Pig Latin游戏过了一个小关。先来介绍下数据。营销活动是每个企业必须要进行的活动,但是影响营销活动的成功因素的是什么呢?虽然中小样本量容易建模,但是如果碰巧有几千个产品,每个产品每天都会进行很多营销活动,累计样本量上千万,如果使用集群进行分析呢?这里举了个简单的例子:从星期、天气、广告方式、销量这几个简单的字段,对营销活动进行分析。这里...

2020-05-04 17:57:05 161

原创 简单的Pig Latin语句进行文本情感分析

第一天学Pig Latin,忍不住就要发个文卖弄卖弄。所以大神们不要笑哈。首先是安装及环境的搭建。Pig有2种模式,一种是本地模式,一种是hadoop集群模式。本地模式用命令 pig -x local,集群模式直接用pig就可以启动。从网站上下载pig后解压,再配置环境变量。然后直接启动就可以了,pig项目是apache免费的项目,所以在已有集群上部署pig应该不太复杂(至少对于我这种只有...

2020-05-02 19:19:43 247

原创 流失客户预测

从事了多年文员的工作,终于晋升为大妈级文员了。一边尖着耳朵听着会议室里乙方虐客户,一边盯着一大堆需要复制粘贴的材料。真恨不得冲进去拿着白板笔写写画画讲起来。然而那是不可能的,于是只有压抑住内心的汹涌澎湃,一面面无表情的平静无辜滴看着毫无意义的材料。算了,就来给客户科普下数据分析项目吧。首先肯定是确定业务需求,业务需求都没搞清楚,难怪要被虐。偷听到貌似业务需求是要有一大堆合约到期了,那么不续...

2020-04-25 18:07:06 330

原创 使用MapReduce的分层抽样

本篇文章讲述了使用MapReduce进行分层抽样。对于数据量实在太大,并且使用hadoop分布式管理系统的小朋友,如何进行数据分析呢?大家应该要知道,很多统计理论都是针对中小样本的,那么抽样,就成了大数据分析平台下必要的工作了。假设这是一个存在HDFS中的关于客户信息的文件:姓名 ,年纪,性别,职位,购买商品,单价张三,20,男,操作工,商品一,32元李四,30,女,务农,商品二,...

2020-04-11 15:42:54 681

原创 Hadoop 中 SequenceFile 的理解

SequenceFile其实还是蛮简单的啦,就是一个个键值对组成的序列化文件。文件的前三个字节为文件头,包含顺序文件代码、键和值的类名称、数据压缩细节和元数据等。后面为压缩或者没有压缩的记录,夹杂了同步标识。 SequenceFile类提供SequenceFile.Writer、SequenceFile.Reader和SequenceFile.Sorter进行文件的写、读和排...

2020-04-05 16:03:33 387

原创 Weka 的非监督属性 filters介绍(二)

哈哈,第一篇博客的阅读量上不去耶,看来需要学习weka的专业技术人才太少了哈,加油哟。本篇博客对于Weka的非监督属性的API的应用举了个栗子,不说了,看代码:用了iris数据集分类,效果还不错哟,AUC 0.99左右。创作不易,打赏随意!!import java.util.Random;import weka.core.Instances;import weka.cor...

2020-04-03 15:30:41 352

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除