自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 问答 (1)
  • 收藏
  • 关注

原创 ClickHouse vs. MySQL vs. vertica vs. PostGreSQL

最近脑细胞休假回家过节,实在找不到更快的分析方法了。在一个晴空万里的午后,心里却乌云密布,于是上网刷一刷,忽然发现一匹黑马,大名ClickHouse,顿时乌云散去,灿烂的阳光又直射到了那颗有趣的灵魂!由于做了一段时间大数据架构,喜欢工具之间的比较,于是乎诞生此文,文笔拙劣,望君多多包含!ClickHouse是战斗民族家的‘百度’搞出来的面向OLAP的分布式列式DBMS,跑分是vertica...

2018-09-26 11:29:26 4264

原创 SCRUM&CMMI管理总结(持续更新)

文章目录现存问题管理者开发人员团队之间目的前辈经验管理方法OKR原则/准备实施CMMICMMI与敏捷PDCA应用项目成本软件开发指标质量评价五个重要指标参考现存问题管理者由于管理者(特别非开发部门的,需要对开发进行成本、效益考核的管理者)的工作方向及重点的不同,难以时刻对日益更新的新技术以及技术实现过程保持深入的跟进。造成对团队或项目进行管理的时候无法清晰的把握绩效。盲目制定或照搬的KPI管理办法(代码量、bug数、加班时长、营收、服务等级协议、NPS等等),难以公平、全面的涵盖复杂的业务逻辑或流

2021-03-24 18:28:35 549

原创 大数据整合方案架构总结

文章目录说明需求分析方案架构数据安全安全要求安全模块数据应用dremio部署(Hadoop on yarn模式)个人博客说明本文着重于针对数据整合案例进行总结描述,选取部分数据ETL及平台应用中面临的问题及经验进行介绍,未对完整平台功能及流程进行展开描述。以下总结均来源于自身过往经验。特别的,融合数据安全模块及DaaS服务建议进行简要描述。需求分析数据量:每天千亿级别数据格式:以RDB...

2020-02-28 08:59:22 3924

原创 北京房价预测图说

前言曾听人说过,中国经济是房地产市场,美国经济是股票市场。中国房地产市场超过400万亿,房地产总值是美国、欧盟、日本总和,但是股市才50万亿,不到美欧日的十分之一。可见房地产对于中国来说地位尤其明显!对于我们很难在一线城市买房的年轻刚需族来说,这确是一个十分头疼的问题。于此,萌生了分析房价并预测的想法(曾经采用R做过尝试,这次将采用python)。本次将基于北京房价作为测试数据,后期通过爬虫将...

2019-01-05 18:44:11 2061 1

翻译 HDP HELLO WORLD案例

第一个HDP应用(物联网案例)摘要准备sandboxHadoop生态传输数据样本到HDFS使用Hive做ETLHive知识点创建ORC文件格式:验证查询数据Hive设置分析数据创建TRUCK_MILEAGE表抽样查询性能展示Tez创建AVG_MILEAGE表创建DRIVERMILEAGE表PIG创建Pig脚本spark使用ambari...

2018-07-15 22:18:12 563

原创 HIVE2.1 vs impala

HIVE2.0增加了LLAP(低延迟分析处理),并在2.1版本进行了改进,相较于HIVE 1有了25倍的查询性能提升。LLAP以多线程方式采用内存进行计算。智能地将数据缓存到多台机器内存中,并允许所有客户端共享这些缓存的数据,同时保留了弹性伸缩能力。详见官网LLAP采用缓存持久化查询来避免较长的启动时间;内存查询,并在所有SQL用户之间共享;细粒度的资源管理和占有,适合多用户高并发操作;...

2018-07-15 22:02:24 1206

翻译 Mirantis Cloud Platform之MCP架构

介绍了MIRANTIS云平台架构设计的要点。MCP是一个综合的私有云软件栈,具有可靠、弹性、可扩展的特点,包括openstack(裸机和虚拟机),kubernetes(容器),ceph(块存储和对象存储),opencontrail(面向openstack集群)和Calico(面向K8s) SDN

2018-01-11 11:00:35 4001

原创 pentaho & SPARK

一个人难以开发出一个强大且完整的系统,pentaho集成了BI和DI等功能,应用于报表制作和商业智能相对比较全面,最近看了国外文章,这里做一些介绍。pentaho 使用Adaptive Execution Layer (AEL)在不用系统引擎中执行数据转换,而在大数据环境下,基于hadoop集群 下的spark能够进行高效的数据处理。AEL为spark定义数据的转换,直接将操作传递给hadoo

2017-10-24 10:24:49 1023

原创 朴素贝叶斯随笔-python

朴素贝叶斯大家都知道了,我也就不赘述了,可参考点击打开链接http://scikit-learn.org/stable/modules/naive_bayes.html如何使用比如根据天气看小J是否出去打球,统计了她过去打球的数据:天气打球晴天no多云yes雨天yes晴天

2017-10-21 14:10:26 1053

原创 django传递数据到后端

最近遇到一个问题,前端表单我写了多个按钮,每个按钮通过for循环来给name赋值如下:问题是我想要实现点击哪个按钮就传对应按钮的值到后端,对于我这样的前端新手就比较麻烦了。。。于是乎,各种询问、谷歌...用了三天才发现原来实现出来那么简单,要被大神们嘲笑了,废话少说,我用了ajax传递数据:function Parsefunc(dataname){// var dataname = $(t

2017-09-06 18:34:51 7168

原创 R语言抓取广州租房信息

要去广州工作了,所以抓取了广州租房信息看一下,来源是某家广州租房网。网上爬虫代码很多,对于简单的网页实现起来也很简单,直接上核心代码: require(RCurl) ##载入包 require(XML) rm(list = ls()) GZsource <- data.frame() system.time(for (i in 1:100) { if(i==1){we

2016-10-31 21:28:14 872

原创 R语言随机森林初探

先介绍一下吧 在监督学习或者分类中,随机森林(RF)是一个非常好的分类学习算法。随机森林算法的实质是基于决策树的分类器集成算法,每一棵决策树给出一对实体的匹配决策,并根据所有的树的投票来得到最终决策。 基本思想:首先,通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回的重复随机抽取k个样本生成新的训练集样本集合,每个样本集合容量为k;其次,根据自助样本集生成k个决策树组成的

2016-10-23 20:04:09 7094 4

原创 R语言字符串相似度 stringdist包

R语言采用stringdist包计算字符串相似度

2016-10-19 14:32:10 6925 1

转载 win10下安装centos7双系统之开机系统引导问题

**最近在win10下安装了centos7,用了KDE桌面,但是遇到两个问题:1)引导系统启动发现只更改grub.cfg文件后启动项有了,但是进去报错:variable root isn’t set ;2)无线网络连接不了,打开了网卡,能搜索到无线路由,但连接不上。 第一个问题找了几个前辈的分享以后最终解决了,转载如下,希望有别的方法的可以一块分享:**在已经安装了 Windows 10 的笔记本

2016-08-24 10:18:21 2810

转载 【转】R语言异常检测处理

看到一篇干货,感谢作者以及分享者,现与大家分享,转自http://youhaolin.blog.163.com/blog/static/224494120201422110628586/本文结合R语言,展示了异常检测的案例,主要内容如下:(1)单变量的异常检测(2)使用LOF(local outlier factor,局部异常因子)进行异常检测(3)通过聚类进行异常

2016-08-04 20:20:26 2031

转载 在Windows和Rstudio下本地安装SparkR

转自http://blog.sina.com.cn/s/blog_614408630102vyom.html 原文地址:http://www.r-bloggers.com/installing-and-starting-sparkr-locally-on-windows-os-and-rstudio/毋庸置疑,Spark已经成为最火的大数据工具,本文详细介绍安装SparkR的方法,让你在5分钟之内

2016-06-08 11:00:10 3068 1

转载 增强学习(Q-learning)

本文转载自peghoty,翻译的通俗易懂,杰哥开心极了!!与大家分享一下~.~本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,出处: http://blog.csdn.net/peghoty/article/details/9361915翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处

2016-05-12 10:05:48 7760

原创 MapReduce学习笔记

MapReduce学习笔记mapreduce提供了简洁的编程接口,对某个计算任务来说,其输入是key/value数据对,输出也以key/value形式表示。开发只需实现Map和reduce两个接口函数内的具体操作内容,即可完成大规模数据的并行批处理任务。 map函数以key/value数据对作为输入,将输入数据经过业务逻辑计算产生若干仍以key/value形式表达的中间数据。mapreduce计算

2016-04-21 17:20:37 826 1

原创 linux忘记root密码

杰哥在长期理论学习以及论文研究后,发现一年前装的centos密码居然忘了,然后经过煎熬的“头脑回放与搜索”,以及大量杰哥常用密码尝试(看来还是不敢去买彩票),再加上内心虔诚地祈祷,当然还有搜索引擎的使用,最终~~终于没有成功但是,当你以为就这样了,只能请教高人或者重装了的时候~~奇迹发生了!原来杰哥不是密码忘了,而是用户名输错了。。。废话太多,来点干货其实忘记密码不要怕,不用重装。重启过程

2016-04-16 10:38:42 517

原创 Linux关机

linux关机可不是随便的!!!1.查看系统使用状态:有谁在线:”who“ ;网络联机状态:“netstat -a” ;后台执行程序:“pa -aux” :2.关机命令数据同步写入硬盘:“sync”;关机:“shutdown”“halt”“poweroff”;重启:“reboot”: “shutdown -h 20:00”  八点关机“shutdown -h +20”  二

2016-04-16 10:33:02 451

原创 机器学习,数据挖掘,人工智能,统计学的一点随笔

1.机器学习(ML):考察计算机如何基于数据来学习(或提高性能),也就是通过数据,得到目标函数f的近似g。可分为:监督学习(基本上就是分类),学习中的监督来自训练数据集中标记的实例;无监督学习(本质上就是聚类),输入实例没有类标记;半监督学习,学习模型时,使用标记和未标记的实例,标记的实例可用来学习类模型,未标记的实例可用来改进类边界;主动学习,可能要求用户对一个可能来自未标记的实例集或有学习程序

2016-01-20 15:23:04 2238

原创 大数据算法点滴一

大数据算法笔记 FROM 哈尔滨工业大学 大数据算法设计与分析 王宏志一、大数据问题1Byte=8bit,1KB=1024Bytes,1MB=1025KB,GB、TB、PB、EB、ZB、YB、BB、NB、DB4V特性:volume、variety、velocity、value,补充:对于web大数据还有virtuality求解步骤:问题--可计算否--计算可行否(资源、时间、数据量

2016-01-01 10:27:42 1693

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除