猫爷大数据学习笔记

总结这近2年来学习开发笔记和心得

排序:
默认
按更新时间
按访问量

jenkins+svn+maven+tomcat一键构建部署

1背景 这是这种多人协同开发,自动构建,自动部署的方案。就不用自己打包,然后上传部署了,解放人力,便于管理。这里只是简单介绍各自软件的使用与集成,其实不论svn和maven还有很多实用的用法,svn的管理规划,maven的仓库等。 svn用来做代码版本管理,maven用来编译,tomcat是...

2017-04-14 11:33:19

阅读数:15181

评论数:0

基于Spark的Als算法+自迭代+Spark2.0新写法

主要介绍了一下几点: 1矩阵分解的几种算法 2spark使用矩阵分解的几种方式,1ml 包中使用,2mllib包中的使用,其实有不调用包自己写的案列(可以去看看哈,就在example目录) 3使用ALS做推荐的一个比较详细的流程:1自迭代确定比较优的参数是,2使用参数训练模型,3使用模型推荐...

2016-10-25 16:13:57

阅读数:9723

评论数:6

基于Spark的FPGrowth(关联规则算法)

在推荐中,关联规则推荐使用的比较频繁,毕竟是通过概率来预测的,易于理解且准确度比较高,不过有一个缺点为,想要覆盖推荐物品的数量,就要降低支持度与置信度。过高的支持度与置信度会导致物品覆盖不过,这里需要其他的推荐方法合作,建议使用基于Spark的模型推荐算法(矩阵分解+ALS).一FPGrowth算...

2016-10-24 11:34:10

阅读数:9404

评论数:0

Spark的逻辑回归与P_R_F评估

Spark的逻辑回归与P_R_F评估1逻辑回归可以使用预测2分类的场景,必须使用已经有分类的样本,然后经过训练,预测未分类的样本的Lable,输出是概率,表示一般为正的概率是好多。输入: libsvn数据 样本如下: sample_binary_classification_data.txt...

2016-10-21 18:49:37

阅读数:2825

评论数:0

spark基于用户的协同过滤算法与坑点,提交job

承接上文: http://blog.csdn.net/wangqi880/article/details/52875524 对了,每台机子的防火墙要关闭哈,不然spark集群启动不起来 前一次,已经把spark的分布式集群布置好了,今天写一个简单的案例来运行。会写一些关于spark的推荐的东...

2016-10-21 15:48:00

阅读数:6041

评论数:4

HiveServer2的客户端

hiveserver2的客户端使用 hive的数据类型 hive的各种url连接 hive python hive ruby hive的认证

2016-01-23 14:58:50

阅读数:5390

评论数:7

百分点苏海波-用户画像的构建与使用1

转载 百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商。 首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,it系统围绕这业务服务...

2015-11-18 22:13:32

阅读数:3094

评论数:0

今天来学习下美团推荐算法实践:机器学习重排序模型

转载,来自小象学院。 美团推荐算法实践:机器学习重排序模型 文章介绍了美团推荐系统的构架和优化过程,包括数据层,触发层,融合过滤层和排序层,采用了Hbase,Hive,Storm,Spark和机器学习等技术。两个优化两点将是候选集进行融合与引入重排序模型。 看的到这里顿时觉得高大上了,有木有...

2015-11-14 20:38:15

阅读数:11235

评论数:4

快速理解bootstrap,bagging,boosting-三个概念

1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。 2 bagging:bootstrap aggregating的缩写。让该学习算法训练多轮。 3 boost:其中主要的是adaboo...

2015-11-10 21:35:38

阅读数:13153

评论数:0

spring mvc的几种使用方式1

1将请求映射到方法上//get方式的rest风格请求,路径带有参数 @RequestMapping("/accounts/{username}") //使用正则表达式 @RequestMapping("/accounts/{username:.*}" //根...

2017-05-10 22:54:04

阅读数:277

评论数:0

GBDT和随机森林的区别

1背景 以前把这两个搞混了2随机森林 说道随机森林就要提bagging集成方法。bagging才用有放回的抽样。下图时bagging的示意图。 随机森林是bagging的一种扩展,在k个数据集选择的时候后,引入了随机属性选择。加入所有属性个数为d,k是随机选择的属性个数。那么k=d的时候...

2017-04-17 10:38:59

阅读数:2142

评论数:0

kryo的速度测试

1背景介绍 这里主要想测试一些spark的优化方式之一的kryo。场景为通过数1000w的数据,通过日期分组,求一个点击字段的sum。使用了kryo和没使用kryo的时间对比。这里由于环境限制,主要是使用到了kryo在各个机器之间的传输序列化(这里是内网很快),传入内存序列化,磁盘数据RDD的序...

2017-04-09 10:44:51

阅读数:1324

评论数:0

SSO的一种方案

今天分享一个解决web开发中的SSO的一种方案。1背景 技术: java,redis,spring,spring mvc,jackson,httpclient,mybatis,mysql。 这里主要以后台服务的概念来实现,这要求前段会把很多效果都写好,后端只注重服务。下面是一个图片的介绍哈。...

2017-04-07 15:53:39

阅读数:527

评论数:1

Codis的安装与使用2

一背景 上一篇谢了codis的安装与使用 这里解决以前遗留下来的问题 1修改zookeeper的ip地址,以前是127.0.0.1这里修改为192.168.247.140,因为java代码需要连接zk,需要ip和端口。 2java连接codis的一些坑点,需要配置proxy的jodis才行...

2017-03-24 12:08:31

阅读数:1513

评论数:0

Codis的安装与使用

1背景 codis的github地址,里面很全,并且是中文的,但是按照他的步骤还是有些坑哈 https://github.com/CodisLabs/codiscodis是一种基于高可用的redis集群的一种带来,使用go语言编写。被广泛使用到豌豆荚和其他公司。 https://github...

2017-03-23 16:13:30

阅读数:8839

评论数:1

redis的集群搭建与添加节点

1背景 参考https://redis.io/topics/cluster-tutorial 官方redis集群创建环境: redis-3.2.8 虚拟机centos6.5 ip:192.168.247.135单机目录,前提已经把redis的单机环境配置过哈 /usr/local/red...

2017-03-21 12:06:39

阅读数:389

评论数:0

性能测试Jmeter的使用

本次测试使用了分部署服务哈,并且tomcat的接口是从redis取数哈。 1环境 1个mysql数据库,内存1个,cpu 1核 tomcat的web服务器,内存2g,cpu 2核,部署分布式tomcat服务,2个tomcat reids缓存服务器,1g内存,cpu 1核 全部是虚拟机哈:...

2017-03-17 23:28:15

阅读数:3563

评论数:0

open nsfw封装成接口

承接上文:http://blog.csdn.net/wangqi880/article/details/62037078 黄图识别-open nsfw为了使用的方便和提供别人好用,想把open nsfw封装成http形式的接口,别人通过上传图片,就可以得到这图片的nsfw score. 由于本人...

2017-03-14 12:45:57

阅读数:1873

评论数:0

黄图识别-open nsfw

大楷简介: open nsfw是一款开源的黄图识别的模型。对的,只是模型。并且有有python的代码作为预测图片是否黄图。 https://github.com/yahoo/open_nsfw 这里网址。 open nsfw是雅虎开源项目caffeonspark,使用深度学习训练得到caff...

2017-03-14 10:03:58

阅读数:8010

评论数:1

微信小程序的部署

部署环境: jdk1.7 mysql5.6 tomcat7 centos6.51资料准备 1)linux服务器,推荐使用阿里云,这里预算有限,所以使用了香港的低配服务器。 2)域名,这里是在阿里云平台上申请的,没有申请到cn,因为身份证信息和网上查询的有问题,我是转到学校的,所以没有审...

2017-03-08 11:56:01

阅读数:16765

评论数:3

提示
确定要删除当前文章?
取消 删除
关闭
关闭