自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(247)
  • 收藏
  • 关注

转载 微服务架构实战

开源中国张锋,《微服务架构实战》一书作者,北京航空航天大学软件工程硕士,资深架构师,有10多年管理和架构经验,在业界颇具威望和影响力。曾就职于神州数据、亚信科技、中文在线及多家互联网公司,担任架构师及技术总监等职位,现在就职于中青旅,任架构组组长,成功管理和指导过三农综合服务信息平台、西北企业云服务平台、省级电信平台及多个互联网平台的架构升级改造。拥有工信部认证高级信息系统项目...

2018-07-20 11:39:00 478

转载 JAVA高性能I/O设计模式

Java中的IO方式主要分为3种:BIO(同步阻塞)、NIO(同步非阻塞)和AIO(异步非阻塞)。BIO同步阻塞模式。在JDK1.4以前,使用Java建立网络连接时,只能采用BIO方式,在服务器端启动一个ServerSocket,然后使用accept等待客户端请求,对于每一个请求,使用一个线程来进行处理用户请求。线程的大部分时间都在等待请求的到来和IO操作,利用率很低。而...

2018-07-06 17:40:00 372

转载 那些经常被问的面试题系列

把经常在面试中容易问到的部分进行整理!那些经常被问的JAVA面试题系列:那些经常被问的JAVA面试题(1)—— 集合部分那些经常被问的JAVA面试题(2)—— 基础那些经常被问的JAVA面试题(3)—— 多线程(上)那些经常被问的JAVA面试题(4)—— 多线程(中)那些经常被问的JAVA面试题(5)—— 多线程(下)那些经常被问的JAVA面试题(6)—...

2018-06-22 10:56:00 387

转载 神经网络和深度学习系统教程

神经网络和深度学习系列:神经网络与深度学习(1)—— 感知器本系列全部为原创文章,如果想跟随作者的脚步,可以关注微信公众号极客原创。回复“”gailv“”,免费得概率论和数理统计视频下载地址!@还可以测试一下智能聊天,输入你想输入的内容,看看聊天机器人给不能给出正确答案,比如查询天气:关于如何构建,会在后面的文章中更新,敬请期待!...

2018-06-05 15:40:00 242

转载 知识图谱系列教程

知识图谱系列:知识图谱(1)——前世今生本系列全部为原创文章,如果想跟随作者的脚步,可以关注微信公众号极客原创。回复“”gailv“”,免费得概率论和数理统计视频下载地址!@还可以测试一下智能聊天,输入你想输入的内容,看看聊天机器人给不能给出正确答案,比如查询天气:关于如何构建,会在后面的文章中更新,敬请期待!关于chatbo...

2018-05-19 18:50:00 399

转载 微服务系列教程

Spring Boot 2是微服务的基础,在2018年3月初,Spring Boot 正式宣布进入2.0时代。下面一起来步入Spring Boot 2时代,领略Spring Boot 2带来的开发乐趣吧!本系统源代码地址:https://github.com/cloudskyme/springboot2微服务基础之Spring Boot 2:飞5的Spring Boot2...

2018-05-01 17:35:00 244

转载 区块链笔记

广义和狭义的区块链广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本(分布式...

2018-04-04 15:36:00 1097

转载 开放平台之安全

什么是开放平台开放平台就是将企业中的业务的核心部分经过抽象和提取,形成面向企业或者面向用户的增值系统,为企业带来新的业务增涨点。因为是企业的核心业务能力,所以平台的安全性就成为重中之重。安全方案普通的接口使用Token令牌的方案就可以保证,但是对于一些敏感的接口就需要有针对性的处理,比如使用https。https是在http超文本传输协议加入SSL层,它在网络间通信是加密的,所以需要加密...

2018-03-30 13:10:00 353

转载 小白也能懂的手写体识别

手写体识别与Tensorflow 如同所有语言的hello world一样,手写体识别就相当于深度学习里的hello world。 TensorFlow是当前最流行的机器学习框架,有了它,开发人工智能程序就像Java编程一样简单。 MNIST MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解,...

2018-03-18 15:34:00 728

转载 Win10下用Anaconda安装TensorFlow

什么是Anacondaanaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。它是一个用python开发机器学习的必备工具。什么是tensorflow大名鼎鼎,相信不知道tensorflow的人应该不是很多,目前github上最火的项目之一。TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系...

2018-03-15 17:34:00 83

转载 批处理框架

什么是批处理?在现代企业应用当中,面对复杂的业务以及海量的数据,除了通过庞杂的人机交互界面进行各种处理外,还有一类工作,不需要人工干预,只需要定期读入大批量数据,然后完成相应业务处理并进行归档。这类工作即为“批处理”为什么使用Spring BatchSpring Batch 作为 Spring 的子项目,是一款基于 Spring 的企业批处理框架。通过它可以构建出健壮的企业批...

2017-09-15 09:55:00 420

转载 智能分单算法

算法描述目前在物流,企业用工等领域,都有着大量的通过算法对接到的订单进行智能分配的需求。本文模拟的是用户下订单,然后商家接到订单,由配送人员进行派送的场景。在实际的应用中类似于百度外卖等有着非常多的实际应用。这种问题因为算法的复杂度太高,很难在短的时间周期内求解成功,所以有了像遗传算法,退火算法等启发式算法,以便在短的时间内能够求出近似的最优解。本文模拟8个骑士,40个订单和...

2017-06-30 14:54:00 3339

转载 海量数据处理利器greenplum——初识

简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoo...

2016-08-17 14:27:00 523

转载 使用R画地图数据

用R画地图数据首先,从这里下载中国地图的GIS数据,这是一个压缩包,完全解压后包含三个文件(bou2_4p.dbf、bou2_4p.shp和bou2_4p.shx),将这三个文件解压到同一个目录下。用R绘制地图比较简单。比如画一下全国范围的区域,可以用如下代码:library(maptools)mydat = readShapePoly("china-provin...

2016-02-04 18:01:00 366

转载 跟我一起ggplot2(1)

ggplot2R的作图工具包,可以使用非常简单的语句实现非常复杂漂亮的效果。qplot加载qplotlibrary(ggplot2)# 测试数据集,ggplot2内置的钻石数据qplot(carat, price, data = diamonds)dsmall <- diamonds[sample(nrow(diamonds), 100), ] ...

2015-08-12 18:12:00 153

转载 一文搞懂HMM(隐马尔可夫模型)

什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种...

2015-07-16 14:52:00 4867

转载 借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。在本篇博客帖中,你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用RapidMiner(一款流行的预测分析开源工具)和亚马逊S3业务来创建一个文件挖掘应用。亚...

2015-07-15 18:39:00 229

转载 跟我一起hadoop(1)-hadoop2.6安装与使用

伪分布式hadoop的三种安装方式:Local (Standalone) ModePseudo-Distributed ModeFully-Distributed Mode安装之前需要$ sudo apt-get install ssh $ sudo apt-get install rsync详见:http://hadoop.apache.o...

2015-06-28 21:31:00 116

转载 众推项目的最近讨论

openKM想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?不知道openkm能不能做到。OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用。界面如下:zongtui项目项目地址: (分布式爬虫)h...

2015-04-30 13:22:00 2157

转载 基于java的分布式爬虫

分类分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:1、基于局域...

2015-04-20 10:35:00 308

转载 跟我一起数据挖掘(23)——C4.5

C4.5简介C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。由于ID3算法在实际应用中存在一些问题,于是Quinlan提出了C4.5算法,严格上说C...

2015-03-31 16:22:00 164

转载 众推架构的进一步讨论

讨论内容昨天的架构基本确定成如下图所示:针对此架构,大家分别提了不同的看法:【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的设计图? 【大侠】大常 9:55:16 怎么有点看不太懂呢...

2015-03-27 14:35:00 141

转载 分布式爬虫技术架构

SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化...

2015-03-26 19:13:00 154

转载 众推项目的文档分享流程

文档分享流程今天在群里与大家讨论,想一个比较合理的分享流程。我想看到流程应该是挺清楚了,就不再多加文字方面的解释了!有想参与的可以一起进来讨论群号 194338168 想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人。群会定期往出清人! (项目会开源出来)转载于:https://www.cnblogs.com/skyme/p/4366397...

2015-03-25 17:51:00 121

转载 众推平台架构——分布式爬虫

分布式爬虫架构经过新一轮的投票,项目的范围已经基本确定。大家决定 全力以付,集中攻克“分布式爬虫”。分布式爬虫架构1使用队列,即生产者,消费都模式。由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取。分布式爬虫架构2类似于webmagic,webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵...

2015-03-24 11:34:00 126

转载 数据挖掘开源项目立项

项目背景因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是:http://www.cnblogs.com/skyme/archive/2012/02/07/2341364.html但是后期实在工作太忙,就搁置在那里了。所以现在又搞...

2015-03-23 10:53:00 2203

转载 跟我一起数据挖掘(22)——spark入门

Spark简介Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。Spark优点...

2015-03-14 23:48:00 124

转载 跟我一起数据挖掘(21)——redis

什么是RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Memcached和RedisMemcached的基本应用模型如下图所示:redis使用与...

2015-03-08 11:31:00 64

转载 跟我一起数据挖掘(20)——网站日志挖掘

收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯...

2015-03-05 15:57:00 466

转载 跟我一起数据挖掘(19)——什么是数据挖掘(2)

什么是数据仓库?数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理:①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;②数据仓库是对多个异构数据源的...

2015-03-03 11:36:00 177

转载 跟我一起数据挖掘(18)——什么是数据挖掘(1)

什么是数据挖掘前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。先看一上概念:数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤...

2015-02-28 15:32:00 248

转载 跟我一起数据挖掘(17)——分布式缓存

分布式缓存架构先看架构: 图一用户通过访问http服务器,然后访问应用服务器资源,应用服务器调用后端的数据库,在第一次访问的时候,直接访问数据库,然后将要缓存的内容放入memcached集群,集群规模根据缓存文件的大小而定。在第二次访问的时候就直接进入缓存读取,不需要进行...

2015-02-23 14:14:00 89

转载 jeechart

个人网站地址:http://blog.niubua.comjeechart(1)——普通的分页查询 :http://blog.niubua.com/2014/09/18/jeechart(1)-普通的分页查询/jeechart(2)——无分页列表和图表demo :http://blog.niubua.com/2014/09/18/jeechart(2)-无分页列表和图表demo/...

2014-09-19 10:08:00 101

转载 算法——贝叶斯

简介学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B)可以计算出P(B|A)。假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}。...

2014-02-24 14:03:00 703

转载 算法——递推算法

递推算法给定一个数的序列H0,H1,…,Hn,…若存在整数n0,使当n>n0时,可以用等号(或大于号、小于号)将Hn与其前面的某些项Hi(0<i<n)联系起来,这样的式子就叫做递推关系。递推算法是一种简单的算法,即通过已知条件,利用特定关系得出中间推论,直至得到结果的算法。 递推算法分为顺推和逆推两种。相对于递归算法,递推算法免除了数据进出栈的过程,也就是...

2014-02-09 20:33:00 594

转载 跟我一起云计算(5)——Shards

什么是shardingSharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库 (server)上,从而缓解单一数据库的性能问题。不太严格的讲,对于海量数据的数据库,如果是因为表多而数据多,这时候适合使用垂直切分,即把关系紧密(比如同一模块)的表切分出来放在一个server上。如果表并不多,但每张表的数据非常多,这时候适合水平切分,即把表的数据按某种规则(比如按ID ...

2013-12-05 16:15:00 402

转载 跟我一起云计算(4)——lucene

了解lucene的基本概念这一部分可以参考我以前写的博客:http://www.cnblogs.com/skyme/tag/lucene/lucene是什么下图是一个很好的说明:1、lucene是构建索引、查询、高亮、拼写检查的类库。2、它不是一个爬虫。3、不提供分布式的索引。lucene全文搜索处理流程lucene的索引和查询这是用4.6...

2013-12-04 15:45:00 151

转载 跟我一起云计算(3)——hbase

hbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。...

2013-11-24 21:38:00 297

转载 博客群发(2)--实现登陆

模板方法python也是一种面向对象的语言,所以在实现群发的时候,会登陆不同的网站,但是登陆的方法什么的不尽相同,所以这里想到的是模板方法。模板方法模式:应用特性:重复做相同逻辑的事情,但是具体细节不同的场景结构特性:相同逻辑抽取至父类,具体细节留置子类。可以说是对逻辑的抽象看一下代码:#!/usr/bin/env python #encoding: u...

2013-11-21 22:44:00 107

转载 跟我一起云计算(6)——openAPI

介绍Open API即开放API,也称开放平台。 所谓的开放API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API(Application Programming Interface,应用编程接口)开放出去,供第三方开发者使用,这种行为就叫做开放网站的API,所开放的API就被称作OpenAPI(开放API)。开放平台分类根据开放层...

2013-11-21 14:52:00 669

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除