- 博客(58)
- 资源 (1)
- 收藏
- 关注
转载 MongoDB aggregate,mapreduce,聚合命令的区别
在mongodb中想要完成聚合操作,可以使用以下三种方式;但是很多时候这三个真是傻傻分不清楚,本文是来总结以下三种方式的区别滴~1. 聚合框架aggregate pipeline2. mapreduce3. 聚合命令group,distinct,count聚合框架 aggregate pipeline(聚合管道)aggregate 聚合框架是基于数据处理管道模型
2017-08-28 17:01:07 3425
转载 一图读懂JVM架构解析
每个Java开发人员都知道字节码由JRE(Java运行时环境)执行。但许多人不知道JRE是Java Virtual Machine(JVM)的实现,它分析字节码,解释代码并执行它。作为开发人员,我们应该知道JVM的架构是非常重要的,因为它使我们能够更有效地编写代码。在本文中,我们将更深入地了解Java中的JVM架构和JVM的不同组件。什么是JVM?Virtual Machine是物
2017-08-26 10:34:49 350
转载 技术团队,如何更高效地开会?
会议目标混乱不堪,与会人员莫名其妙,会议冗长且无趣,浪费时间耗费生命,咋整?写在前面相信很多做技术的朋友都一样,我们都是非常讨厌开会的人。我们只希望能够静下心来,沉醉在自己的代码世界中,为了让世界变得更加美好,而付出自己的青春,这才是我们程序员的梦想,这才是我们最应该去做的事情。为何讨厌的会议总是来纠缠我们?我们不想开会,我们只想静静。其实我们都知道,会议是必不可少,尤其是需要当面
2017-08-24 20:35:03 1055
转载 探求ETL本质
ETL的考虑做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使用不同了。究竟什么不同,从名字上就可以看到
2017-08-17 15:15:02 363
转载 带好团队的7个步骤,不然就自己干到死
柳传志认为“带队伍”要做好三件事:充分调动员工的积极性;提高员工能力;使员工队伍有序,协调、效率高。文中给出了10条带团队的实践性建议,可以很好地帮助领导者提升领导力和执教能力。在信息社会这个大背景下,人人都会经历许多大悲大喜!虽然,一个人的聪明才智是无限的,但是,一个人的精力却是有限的。有人说:“一个篱笆三个桩,一个好汉三个帮”,在一个组织或部门之中,团队合作精神显得尤为重要。那么,怎样
2017-08-17 09:09:40 2059
转载 【neo4j图数据库】基础入门&案例整理
neo4j有社区版本和企业版。社区版本是免费的,只支持单机版;企业版是付费的,是分布式的。整理了一些不错的参考资料分享给大家。neo4j官网:https://neo4j.com/Cypher是类似SQL的查询语言,支持做基础的图挖掘项目,属于轻量级。腾讯的QQ、微信社交关系挖掘,是基于spark的Graphx做计算引擎,Hbase来存储关系链。Cyp
2017-08-17 09:03:57 5285 2
转载 Pentaho 数据集成工具——Kettle(一)
简介 Pentaho是一个以工作流为核心的、强调面向解决方案的开源商业智能(Business Intelligence, BI)套件,以构成全面的数据集成和业务分析平台。这些套件各自为独立产品,之间为松耦合可插拔式设计,用户可根据自身需求进行灵活选择。Kettle是Pentaho整个产品体系中的数据集成模块,使用突破性的元数据驱动方法提供强大的“提取,转换和加载(ETL)”功能。主要使用在
2017-08-17 09:02:19 12357
转载 Python 爬虫实践:《战狼2》豆瓣影评分析
简介刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。目标总览主要做了三件事:抓取网页数据清理数据用词云进行展示使用的python版本是3.
2017-08-17 09:01:32 5735
转载 Spark踩坑记——Spark Streaming+Kafka
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己
2017-08-16 16:47:53 490
转载 kafka 数据可靠性深度解读
1 概述Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka凭借着自身的优势,越来越受到互联网企业的青睐,唯品会也采用Kafka作为其内部核心消息引擎之一。
2017-08-16 15:42:52 1141
转载 TensorFlow深度学习,一篇文章就够了
TensorFlow深度学习框架Google不仅是大数据和云计算的领导者,在机器学习和深度学习上也有很好的实践和积累,在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比,TensorFlow在Github上Fork数和Star数都是最多的,而且在图形分类、音频处理、推荐系统和自然语言处理等场景下都有丰富的应
2017-08-16 11:13:42 298
转载 TensorFlow从入门到实战资料汇总
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从图象的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow已经开源一年多了,在谷歌的
2017-08-16 11:12:50 344
转载 Spark SQL 之 Join 实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用Spar
2017-08-16 09:48:54 751
转载 Bit-map空间压缩和快速排序去重
阅读目录1. Bit-map的基本思想2. Bit-map应用之快速排序3. Bit-map应用之快速去重4. Bit-map应用之快速查询5. Bit-map扩展——Bloom Filter6. 总结 Bit-map是一种很巧妙的数据存储结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为
2017-08-15 20:44:22 445
转载 Spark SQL笔记——技术点汇总
目录· 概述· 原理 · 组成 · 执行流程 · 性能· API · 应用程序模板 · 通用读写方法 · RDD转为DataFrame · Parquet文件数据源 · JSON文件数据源 · Hive数据源 · 数据库JDBC数据源 · DataFrame Operation
2017-08-15 11:23:07 1205
转载 Spark Streaming笔记——技术点汇总
目录· 概况· 原理· API · DStream · WordCount示例 · Input DStream · Transformation Operation · Output Operation · 缓存与持久化 · Checkpoint· 性能调优 · 降低批次处理时间 · 设置合理
2017-08-15 11:21:16 516
转载 机器学习算法的要点(附 Python 和 R 代码)
前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期:从使用大型计算机,到个人电脑,再到现在的云计算。关键的不是过去发生了什么,而是将来会有什么发生。工具和技术的民主化,让像我这样的人对这个时期兴奋不已。计算的蓬勃发展也是一样。如今,
2017-08-15 10:54:57 336
转载 Spark Streaming应用与实战全攻略
Spark Streaming应用与实战系列包括以下六部分内容:背景与架构改造通过代码实现具体细节,并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关的优化
2017-08-14 18:38:26 804
转载 [Machine Learning & Algorithm] 随机森林(Random Forest)
阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有
2017-08-14 11:33:03 543
转载 自然语言处理(NLP)入门指南资料
作者:Melanie Tosik 翻译:闵黎 校对:丁楠雅Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单。displaCy网站上的可视化依赖解析树https://demos.explosion.ai/d
2017-08-14 10:33:22 1872
转载 相似图片搜索的原理
上个月,Google把"相似图片搜索"正式放上了首页。你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后,Google返回如下结果:类似的"相似图片搜
2017-08-14 10:32:12 289
转载 跟上 Java 8 : 日期和时间实用技巧
当你开始使用Java操作日期和时间的时候,会有一些棘手。你也许会通过System.currentTimeMillis() 来返回1970年1月1日到今天的毫秒数。或者使用Date类来操作日期;当遇到加减月份、天数的时候 你又需要用到Calendar类;当需要格式化日期的时候需要使用java.text.DateFormat类。 总而言之在Java中操作日期不是很方便,以至于很多开发者不得不使用第三方
2017-08-14 10:07:21 292
转载 Java8 如何正确使用Optional
Optional是Java8提供的为了解决null安全问题的一个API。善用Optional可以使我们代码中很多繁琐、丑陋的设计变得十分优雅。这篇文章是建立在你对Optional的用法有一定了解的基础上的,如果你还不太了解Optional,可以先去看看相关教程,或者查阅Java文档。使用Optional,我们就可以把下面这样的代码进行改写。
2017-08-14 10:06:20 527
转载 选择大于努力:未来30年,你该如何提升自己的竞争力?
我有个朋友,06年毕业于浙江大学,是大学里有名的才女。 毕业时,阿里巴巴来学校招人,一眼看上了她。但是她果断拒绝了。她说当年阿里巴巴在她心目中,Low爆了,就是一个专门做假货低档货的公司。后来一家非常知名的企业来校招管培生,她在芸芸众生中脱颖而出获得了这个机会。而她的令一个同学则被淘汰,于是转而去了淘宝。那时无论是职务还是工资,她都比她同学好太多了。
2017-08-14 09:30:10 452
转载 从0到1:构建强大且易用的规则引擎
2016 年 7 月恰逢美团点评的业务进入“下半场”,需要在各个环节优化体验、提升效率、降低成本。技术团队需要怎么做来适应这个变化?这个问题直接影响着之后的工作思路。美团外卖的 CRM 业务步入成熟期,规则类需求几乎撑起了这个业务所有需求的半边天。一方面规则唯一不变的是“多变”,另一方面开发团队对“规则开发”的感受是乏味、疲惫和缺乏技术含量。如何解决规则开发的效
2017-08-11 16:02:06 2975 1
转载 人工智能之机器学习算法体系汇总
参加完2017CCAI,听完各位专家的演讲后受益匪浅。立志写“人工智能之机器学习”系列,此为开篇,主要梳理了机器学习方法体系,人工智能相关趋势,Python与机器学习,以及结尾的一点感恩。Github开源机器学习系列文章及算法源码https://github.com/wangxiaoleiAI/machine-learning?spm=5176.100239.0.0
2017-08-11 11:40:39 417
转载 如何写出小而清晰的函数?(JS 版)
本文以 JavaScript 为例,介绍了该如何优化函数,使函数清晰易读,且更加高效稳定。软件的复杂度一直在持续增长。代码质量对于保证应用的可靠性、易扩展性非常重要。然而,几乎每一个开发者,包括我自己,在职业生涯中都见过低质量的代码。这东西就是个坑。低质量代码具备以下极具杀伤力的特点:函数超级长,而且塞满了各种乱七八糟的功能。函数通常有一些副作用,不仅难
2017-08-11 11:39:33 295
转载 你需要知道的、有用的 Python 功能和特点
在使用Python多年以后,我偶然发现了一些我们过去不知道的功能和特性。一些可以说是非常有用,但却没有充分利用。考虑到这一点,我编辑了一些你应该了解的Python功能特色。带任意数量参数的函数你可能已经知道了Python允许你定义可选参数。但还有一个方法,可以定义函数任意数量的参数。首先,看下面是一个只定义可选参数的例子def function(arg1="",arg2
2017-08-10 17:23:46 238
转载 深度学习在美团点评推荐平台排序中的运用
美团点评作为国内最大的生活服务平台,业务种类涉及食、住、行、玩、乐等领域,致力于让大家吃得更好,活得更好,有数亿用户以及丰富的用户行为。随着业务的飞速发展,美团点评的用户和商户数在快速增长。在这样的背景下,通过对推荐算法的优化,可以更好的给用户提供感兴趣的内容,帮用户更快速方便的找到所求。我们目标是根据用户的兴趣及行为,向用户推荐感兴趣的内容,打造一个高精准性、高丰富度且让用户感到欣喜的推荐系统。
2017-08-10 14:52:17 2116
转载 Kafka 基本原理
Kafka基本原理简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Kafka架构它的架构包括以下组件:话题(Topic):是特定类型的消息流。消息是字节的有效负载(Payload),话题是消息的分类名或种
2017-08-09 11:01:16 273
转载 谁都忍不了烂代码,如何用重构的方式让它整洁起来?
“整洁的代码简单直接。整洁的代码如同优美的散文。整洁的代码从不隐藏设计者的意图,充满了干净利落的抽象和直截了当的控制语句。”怎样让代码更加整洁?答案是重构!写在前面现在的软件系统开发难度主要在于其复杂度和规模,客户需求也不再像 Winston Royce 瀑布模型期望那样在系统编码前完成所有的设计满足用户软件需求。在这个信息爆炸技术日新月异的时代,需求总是在不断的变化,随之在 2001 年
2017-08-09 10:23:54 278
转载 深度解密今日头条的个性化资讯推荐技术
资讯产品近几年持续火爆,赚足了人们的眼球。以今日头条披露的数据为例:日活跃用户超过一亿,单用户日均使用时长超过 76分钟,资讯类产品的火爆程度可见一斑。资讯类产品的火爆让BAT巨头坐卧不安,纷纷站出来反击。手机百度除了搜索框之外,大部分已经被一条条新闻占据。阿里则是依托UC浏览器上线了自己的头条。腾讯在腾讯新闻之外,从头搞起了天天快报。头条为何能取得成功?很多人会说是头条的个性
2017-08-09 09:24:35 4922
转载 Apache Kafka:大数据的实时处理时代
作者|王国璋编辑|小智在过去几年,对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统:我们可以将每一次用户点击,每一个数据库更改,每一条日志的生成,都转化成实时的结构化数据流,更早的存储和分析它们,并从中获得价值。同时,越来越多的企业应用也开始从批处理数据平台向实时的流数据数据平台转移。本演讲将介绍最近 Apache Kafka 添加的一些系统架构,包括 Kafka Conne
2017-08-08 20:51:37 3089
转载 全球顶尖公司的烧脑面试题,普通人一道都答不出来!
一些世界知名的企业在招聘时,可能会提供面试智力题,来筛选应聘者。那些越是大牌,越是有名的国内500强,乃至世界500强,给出的面试真是一般人都答不出来。谷歌篇以下5个问题,据说在谷歌的面试中,都曾用到过。看看你能答对多少?>>>>球的重量有8个球,其中1个比另外的要略重。在不用砝码的前提下,你最少要称几次,才能找出这个球?
2017-08-08 09:16:32 821
转载 中国式穷人思维
来源 | 国馆(ID:guoguan5000)这应该是一篇会被很多人骂的文章。所以要先特别声明一点:节俭的对立面并不非得是奢侈浪费。两者中间还有适度消费。01中国人曾经很穷。墙上挂着一条咸鱼,一家人围着一盘咸菜扒拉着白饭。低头吃一口饭,抬头看一眼鱼,就算是吃着肉了。孩子忍
2017-08-08 08:50:33 303
转载 优化网站性能必备的6种架构方案,你知道吗?
一个成熟的大型网站(如淘宝、天猫、腾讯等)的系统架构并不是一开始设计时就具备完整的高性能、高可用、高伸缩等特性的,它是随着用户量的增加,业务功能的扩展逐渐演变完善的,在这个过程中,开发模式、技术架构、设计思想也发生了很大的变化,就连技术人员也从几个人发展到一个部门甚至一条产品线。所以成熟的系统架构是随着业务的扩展而逐步完善的,并不是一蹴而就;不同业务特征的系统,会有各自的侧重点,例如:淘宝,要解决
2017-08-07 11:31:52 333
转载 十大必须掌握的机器学习算法,你都知道了吗?
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。 以后有时间再对单个算法做深入地解析。今天的算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯
2017-08-07 10:36:47 293
转载 系统管理员应该知道的 20 条 Linux 命令
在这个全新的工具和多样化的开发环境井喷的大环境下,任何开发者和工程师都有必要学习一些基本的系统管理命令。特定的命令和工具包可帮助开发者组织、排查故障并优化他们的应用程序,而且当出现错误时,也可以为运维人员和系统管理员提供有价值的分类信息。无论你是新手开发者还是希望管理自己的应用程序,下面 20 条基本的系统管理命令都可以帮助您更好地了解您的应用程序。它们还可以帮助解决为什么应用
2017-08-07 09:06:28 276
转载 世界公认最健康的作息时间表,今后就照这个来
7:00 迎着清晨的阳光起床一杯温水是早起之后的必需品,能让你获得一天最好的开始。你需要营养全面而丰富的早餐。一顿优质的早餐,能让你一整天都充满活力。早上是人体免疫系统最弱的时候,不要做剧烈的运动,走路上班是很好的选择,健康又惬意。
2017-08-04 09:50:58 339
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人