高阶
文章平均质量分 86
Lionel_Medoo
大家好,NO PAINS, NO GAINS,O(∩_∩)O谢谢
展开
-
高阶:Java RandomAccessFile用法
RandomAccessFileRandomAccessFile是用来访问那些保存数据记录的文件的,你就可以用seek( )方法来访问记录,并进行读写了。这些记录的大小不必相同;但是其大小和位置必须是可知的。但是该类仅限于操作文件。RandomAccessFile不属于InputStream和OutputStream类系的。实际上,除了实现DataInput和DataOutput接转载 2015-03-28 12:40:47 · 438 阅读 · 0 评论 -
TF-IDF理解及其Java实现
转自:http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html前言前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。TF-IDF理解TF-IDF(term frequency–inverse document freque转载 2017-03-09 15:45:39 · 827 阅读 · 0 评论 -
【阮一峰】TF-IDF与余弦相似性的应用(三):自动摘要
转自:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频转载 2017-03-09 13:29:36 · 464 阅读 · 0 评论 -
【阮一峰】TF-IDF与余弦相似性的应用(二):找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手转载 2017-03-09 11:50:42 · 624 阅读 · 0 评论 -
【阮一峰】TF-IDF与余弦相似性的应用(一):自动提取关键词
转自:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检转载 2017-03-09 11:47:54 · 476 阅读 · 0 评论 -
Web网站的几个并发量级
评价一个网站的“大小”,处于视角的不同,有很多种衡量的方法,类似文章数,页面数之类的数据非常明显,也没有什么可以争议的。但对于并发来说,争议非常之多,这里就从一个技术的角度开始,谈谈几个Web网站的数量级。相信很多人谈论一个网站的热度,总免不了会询问日均PV,同时在线人数、注册用户数等运营数据,说实话从技术角度来说,这几个数值没有一个可以放在一起比较的——一个静态网站的PV跟一个SNS类/转载 2016-08-11 17:13:15 · 502 阅读 · 0 评论 -
资深架构师如何看待大型网站系统架构
目前,网络上关于讨论网站系统架构实操(术)的文章较多,讨论架构理念(道)的较少,本文基于几位资深架构师在大型电商网站系统架构方面的一些实践和思考,和大家聊聊架构理念性的东西,希望能够抛砖引玉,推进大家对架构的认识。什么是道,什么是术?道是事物发展的本质规律,术是事物发展的具体途径。规律只有一个,途径很多,条条大路通罗马,罗马是道,大路是术。道为本,术为途,如果事先知道罗马在哪里,那转载 2016-03-08 22:52:50 · 491 阅读 · 0 评论 -
一个普通网站发展成大型网站的架构演变历程
最近,听到很多的博友说不明白为什么一个网站需要那么复杂的技术,就来问我其原理,于是我也就有了写这篇文章的想法,今天就借助马海祥博客的平台给大家讲诉一个普通的网站发展成大型网站过程中的一种较为典型的架构演变历程和所需掌握的知识体系,希望能给想从事互联网行业的同学一点初步的概念,文中的不对之处也请各位多给点建议,让本文真正起到抛砖引玉的效果。1、物理分离webserver和数据库转载 2016-03-08 22:20:10 · 432 阅读 · 0 评论 -
深入分析Java的序列化与反序列化
转自:http://www.hollischuang.com/archives/1140#What%20Serializable%20Did序列化是一种对象持久化的手段。普遍应用在网络传输、RMI等场景中。本文通过分析ArrayList的序列化来介绍Java序列化的相关内容。主要涉及到以下几个问题:怎么实现Java的序列化为什么实现了java.io.Seri转载 2016-03-03 15:47:23 · 403 阅读 · 0 评论 -
Java对象的序列化与反序列化
转自:http://www.hollischuang.com/archives/1150序列化与反序列化序列化 (Serialization)是将对象的状态信息转换为可以存储或传输的形式的过程。一般将一个对象存储至一个储存媒介,例如档案或是记亿体缓冲等。在网络传输过程中,可以是字节或是XML等格式。而字节的或XML编码格式可以还原完全相等的对象。这个相反的过程又称为反序转载 2016-03-03 15:41:40 · 509 阅读 · 0 评论 -
Lucene 工作原理
转载:http://blog.csdn.net/geekwang/archive/2008/11/29/3410187.aspxLucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too转载 2015-06-26 13:32:10 · 459 阅读 · 0 评论 -
余弦相似性获取文章相似度的java实现
转自:http://www.chepoo.com/cosine-similarity-java-implementation.html文章相似度的实现可以用余弦相似性实现。余弦定理可参考:余弦定理字符串之间的相似度实现:字符串相似度算法(编辑距离)java实现我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成转载 2017-03-09 16:50:34 · 4197 阅读 · 0 评论