zhandsomeu-CSDN博客

原创大众点评2015校招第一次在线笔试（Web前端工程师）

1.有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序10个文件中的所有query。2.2.点评在和第三方网站合作的过程中，需要在由点评页面跳转到对方页面的链接中加入信息来记录点评自己的一些信息，例如用户信息(包括id和识别串)、平台(PC、WAP、APP等)、访问时间等，但是对方只能保留一个由大写字母

2014-09-20 20:24:31 2186

原创 CVTE2015校招Web后台西安站笔试题（回忆版）

1.有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子，假如兔子都不死，问每个月的兔子总数为多少？ 2.给定字符串S，找出

2014-09-19 20:54:13 2397

转载 Comparable和Comparator2个接口的作用和区别

Comparable和Comparator是JDK中定义的2个比较接口，很相似，但又有所不同。这2个接口的作用和区别也是Java中的常见经典面试题。下面我们就来详细介绍下这2个接口的定义、作用、区别、模式、应用场景和代码案例。定义[java] view plaincopyprint?public interface Comparable {

2014-08-26 23:15:41 828

转载学习笔记（3):跟李宁老师学Python视频课程（19）：Python GUI库：PyQt5-配置PyUIC（UI文件转换为Python源代码文件）

Python GUI库PyQt5视频教程，内容包括pyqt5的安装、环境搭建、配置，桌面系统的开发等。该系列课程一共20套，每一套视频课程会深入讲解Python的一类知识点。Python是当今炙手可热的编程语言，可用于多个领域，人工智能、大数据、Web开发、移动开发、运维等。而且学习Python，将会更容易找到工作。本系列课程深入介绍了Python语言的方方面面，也是李宁老师其他课程的基础，如深度...

2020-09-05 12:40:14 203

转载学习笔记（2):跟李宁老师学Python视频课程（19）：Python GUI库：PyQt5-配置PyQt5的开发环境

Python GUI库PyQt5视频教程，内容包括pyqt5的安装、环境搭建、配置，桌面系统的开发等。该系列课程一共20套，每一套视频课程会深入讲解Python的一类知识点。Python是当今炙手可热的编程语言，可用于多个领域，人工智能、大数据、Web开发、移动开发、运维等。而且学习Python，将会更容易找到工作。本系列课程深入介绍了Python语言的方方面面，也是李宁老师其他课程的基础，如深度...

2020-09-05 11:28:54 224

转载基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例

周末两天在家闲着没事，于是整理了一下之前的的文档和一些琐碎的测试代码，居然发现了几个月前写的一个新闻类主题型网页正文文本自动抽取模块。当时写的比较简单和粗糙，虽然抽取结果差强人意，但是也还勉强说得过去。于是清理一下代码上的灰尘，做了一个小Demo，分享一下。作者写这篇文章的主要目的在于抛砖引玉，同时希望能够以此为契机，与诸位大牛讨论一下机器网页内容智能识别方面的。作者自知才疏学浅

2015-03-18 23:36:20 1252

转载主题模型-LDA小结

转载自：http://blog.csdn.net/nanjunxiao/article/details/9006539一.主题模型传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举个例子，有两个句子分别如下：

2015-03-13 08:55:34 1186

转载基于朴素贝叶斯分类器的文本分类算法（下）

Preface文本的分类和聚类是一个比较有意思的话题，我以前也写过一篇blog《基于K-Means的文本聚类算法》，加上最近读了几本数据挖掘和机器学习的书籍，因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法（上）》一文中简单介绍了贝叶斯学习的基本理论，这一篇将展示如何将该理论运用到中文文本分类中来，具体的文本分类原理就不再介绍了，在上半部分有

2015-03-07 20:34:51 862

转载 Drools 6.0入门：时钟实例

转载自：http://blog.csdn.net/sadfishsc/article/details/23456713关于Drools 6.0的博文，写了很长时间。一方面是最近比较散漫，虽然也学了不点击打开链接少新的东西，但是不太愿意记录下来；另一方面是Drools本身比较繁琐，即便是入门也需要涉及很多内部的东西，越写越觉得动力不足。本文已经是第三次从头开始写的了。首先

2015-02-14 20:17:57 814

转载 Drools学习笔记4-第一个例子

安装环境有了，下面开始做第一个例子。新建一个Drools工程，新建时就会生成一个hello world的例子。这个例子我看了一下，没多看。从网上找了一个更复杂的例子。例子的具体内容自己去看。下面主要说说在做这个例子时遇到的问题。Drools工程的目录结构：1、关于Drl文件：addpoint.drl和subpoint.drl，放到rule文件夹下。注意：

2015-02-14 20:17:00 842

转载 Drools学习笔记3-开发环境搭建

Drools下载地址：http://www.jboss.org/drools/downloads，当前版本是6.0.0. 可以看到有5项。我们只用其中的两项：运行时环境：Drools。下载后解压，我解压的位置F:\Drools\drools-distribution-6.0.0.Final。Eclipse插件：Drools and jBPM tools。（注

2015-02-14 20:16:14 748

转载 Drools学习笔记2-RETE算法

前边说了，Drools采用的是RETE算法。那啥是rete算法。定义：Rete算法由 Carnegie Mellon University 的Dr Charles L. Forgy设计发明，是一个用来实现产生式规则系统（前边提到的production/inference好像就该翻译为产生式规则）的高效模式匹配算法。它可以被分为两部分：规则编译和运行时执行。规则编译是指根据规则集生成推理网络

2015-02-14 20:14:32 1786

转载 Drools学习笔记1-规则引擎介绍

最近做一个项目可能会用到规则引擎。就学习了一下。寄了些笔记。从最开始的一无所知，到慢慢熟悉，在这里记录一下啊。规则引擎的概念：规则引擎起源于基于规则的专家系统，而基于规则的专家系统又是专家系统的其中一个分支。专家系统属于人工智能的范畴，它模仿人类的推理方式，使用试探性的方法进行推理，并使用人类能理解的术语解释和证明它的推理结论。规则引擎一般由3部分组成：规则库(Knowledge base

2015-02-14 20:13:42 1353

原创一个关于Lucene，Solr，Hadoop ，HBase的学习教程

作者里的教程很全，适合学习，http://qindongliang.iteye.com/ 立贴记住。。后续还得陆续更新其他学习教程

2015-02-12 23:29:34 768

转载 Lucene 4.4 以后近实时NRT检索

Lucene4.4之后，NRTManager 及NRTManagerReopenThread 已经都没有了，如果做近实时搜索的话，就要这么做，初始化：Directory directory = new RAMDirectory(); IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_48, n

2015-02-11 10:42:01 1022

转载 Lucene4.x高亮 fast高亮前端高亮

原地址：http://qindongliang1922.iteye.com/blog/1953409高亮功能一直都是全文检索的一项非常优秀的模块，在一个标准的搜索引擎中，高亮的返回命中结果，几乎是必不可少的一项需求，因为通过高亮，我们可以在我们的搜索界面上快速标记出用户的检索关键词，从而减少了用户自己寻找想要的结果，在一定程度上大大提高了用户的体验性和友好度。那么，散仙今天

2015-02-11 10:39:50 577

转载 Lucene4.10使用教程(十一)：Lucene的近实时搜索

实时搜索(Near real time search)表示当索引数据发生变化时，Lucene能及时把这种变化反映到客户进行查询的结果中。实现原理：只有Index Writer上的commit操作才会导致ram directory上的数据完全同步到文件。Index Writer提供了实时获得reader的API，这个调用将导致flush操作，生成新的segment，但不会co

2015-02-11 10:37:49 1331

转载 Lucene4.10使用教程(十)：Lucene的关键字高亮

在进行检索时展示时，不能避免的问题就是高亮，下面提供了普通高亮方法和使用fast进行高亮的方法，可以方便大家的选择。注意：在使用fast高亮方法查询显示效率会比上一种高，但是会使用相对较大的存储空间，这是一种以空间换时间的方法。如果使用，需要将内容存储到索引中，并且使用如下的方法存储Field到document中才能是查询结果生效。 FieldType ty

2015-02-11 10:36:21 1394

转载 Lucene4.10使用教程(九)：Tika

Tika可以用来提取office、PDF、HTML、txt等常用文件中得文本（在提取文本时，图片是无法提取的，会被丢弃），方便Lucene进行文本的生成索引和检索。Tika的用法很简单，但是依赖包有些多，导入包后，使用方法如下：package com.johnny.lucene05.lucene_plugin.tika;import java.io.File;import j

2015-02-11 10:34:50 810

转载 Lucene4.10使用教程(八)：Lucene的自定义评分(2)

第二种自定义评分的实现方式如下：** * 自定义评分的第二种写法，基于FunctionQuery * (1)创建类并继承ValueSource * (2)重写getValues方法 * @author Johnny * */public class MySelfScore2 { public void searchBySelfScore(){ try{

2015-02-11 10:32:34 786

转载 Lucene4.10使用教程(七)：Lucene的自定义评分

自定义评分的第一种实现方式，详细内容可以查看代码注释package com.johnny.lucene04.advance_search.selfScore;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lu

2015-02-11 10:31:38 1165

转载 Lucene4.10使用教程(六)：Lucene的过滤器

过滤器在生产环境中应用也比较多。比如禁用词的过滤显示、推荐商品的过期设置等。在编写时，需要在incrementToken添加自己的过滤规则。，下面的demo是针对同义词编写的过滤。过滤器的编写也可以参照org.apache.lucene.analysis.cn.ChineseFilter进行编写。使用自定义过滤器进行查询package com.johnny.lucene

2015-02-11 10:30:19 897

转载 Lucene4.10使用教程(五)：lucene的分词器

Lucene默认提供的分词器中有中文分词器，但是它的分词是基于单个字进行拆分的，所以在正式的项目中基本无用。所有要在项目中Lucene，需要添加另外的中分词器，比如IK、mmseg4j、paoding等。关于中文分词器的比较和适用情况，可以Google，文章很多，不是我们这里讨论的重点。如果需要使用中文分词器，也很简单，只要在使用分词器的地方，将分词器替换成我们的中文分词器即可，eg: Index

2015-02-11 10:28:29 609

转载 Lucene4.10使用教程(四)：lucene的Search

对于检索来说，Lucene4.10默认提供了很多检索模式，包括模糊查询、正则匹配、通配符匹配等有用的匹配模式，但是在实际使用时需要考虑Lucene匹配的效率和系统的需求然后选择相应的匹配模式。Lucene也提供了分页的查询方式。可以在scoredocs中进行分页，适合数据量比较小的情况，数据量太大有可能导致内存溢出；使用SearchAfter分页，每页都从索引中查询数据，查询速度较上一种慢

2015-02-11 10:26:41 606

转载 Lucene4.10使用教程(三)：lucene的增删改查

万丈高楼平地起，在看完helloLucene的demo后，我们可以看下Lucene的增删改查，下面是详细代码。其中：Store.YES表示将索引并且存储，Store.NO表示索引但不存储在Lucene中使用评分来确定文档的重要度和优先级。评分越高，表示文档优先级越高，进行排序显示的时候显示的位置越靠前。在Lucene4.10中，无法对整个文档进行评分，不过可以通过对文档中各个Fie

2015-02-11 10:25:49 620

转载 Lucene4.10使用教程(二)：简单的索引建立和读取步骤（HelloLucene）

下面是HelloLucene的代码，其中步骤已经在代码中标示出来。其中需要主要注意的是TextField和StringField的区别：StringField将字符串认为是一个整体，不能被切分；而TextField中的字符串可以被切分。package com.johnny.lucene01.index;import java.io.File;import java.io.FileRe

2015-02-11 10:24:38 842

转载 Lucene4.10使用教程(一)：常用概念

Lucene是一个基于Java的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Lucene与应用程序的关系如下图所示：在对Lucene4.10的使用进行说明前，需要先了解以下几个概念。

2015-02-11 10:23:20 528

转载 TF-IDF及其算法

转载自：http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重

2015-02-05 16:37:46 570

转载基于朴素贝叶斯分类器的文本分类算法的实现过程分析

有关贝叶斯公式的基础知识参考资料：数据源网站：http://archive.ics.uci.edu/ml/index.html基于朴素贝叶斯分类器的文本聚类算法（上） http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.html基于朴素贝叶斯分类器的文本聚类算法（下）http://www.cnblogs.co

2015-02-04 23:13:38 910

转载基于朴素贝叶斯分类器的文本分类算法（上）

转载请保留作者信息：作者：phinecos（洞庭散人）Blog：http://phinecos.cnblogs.com/Email：phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识，为了将其应用到实际中来，参考了网上许多资料，从而

2015-01-31 16:07:47 685

转载网络爬虫技术浅析

在万维网飞速发展的网络背景下，搜索引擎在人们的生活工作中无疑扮演着重要的角色，而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天，互联网上的网络爬虫各式各样，但爬虫爬取网页的基本步骤大致相同：1）人工给定一个URL作为入口，从这里开始爬取。万维网的可视图呈蝴蝶型，网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页，而门

2015-01-24 11:07:34 1426

原创搜狗2015校招（社区搜索：Java工程师）一面经历

2015年9月23日，一大早接到电话，说是

2014-09-29 10:01:48 1356

原创腾讯2015校园招聘研发工程师笔试题（西安站）

2014-09-21 11:55:52 1334

原创百度2015校园招聘笔试题——研发工程师（西安站）

一、简述题1.请简述TCP-IP的三次握手和

2014-09-21 11:46:55 1229

转载 JAVA NIO 简介

1. 基本概念IO 是主存和外部设备 ( 硬盘、终端和网络等 ) 拷贝数据的过程。 IO 是操作系统的底层功能实现，底层通过 I/O 指令进行完成。所有语言运行时系统提供执行 I/O 较高级别的工具。 (c 的 printf scanf,java 的面向对象封装 )2. Java 标准 io 回顾Java 标准 IO 类库是 io 面向对象的一种抽象。基于本地方法的底层

2014-09-13 22:58:23 639

转载理解Java NIO

对于Java NIO，总是看见别人写，使用Java NIO能够提高性能，比BIO的性能要好挺多，但是一直未能深入的研究，不太清楚NIO到底是怎么来提高性能的，Non-blocking到底体现在哪里。这几天搜索了一个，找到一些讲的比较好的文章，并实际写了一个小的程序来理解一下，对NIO有了更进一步的理解。所参考查询的资料如下：1. JAVA NIO 简介 http://www.it

2014-09-13 22:50:00 599

转载 Java NIO原理图文分析及代码实现

前言: 最近在分析hadoop的RPC(Remote Procedure Call Protocol ，远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。可以参考：http://baike.baidu.com/view/32726.htm ）机制时，发现hadoop的RPC机制的实现主要用到了两个技术：动态代理（动态代理可以参考博客：http:/

2014-09-13 21:57:30 560

原创排序算法的稳定性和复杂度分析

学完排序总结一下排序算法

2014-09-13 09:51:40 848

转载 Java NIO使用及原理分析 (四)

转载自：李会军•宁静致远在上一篇文章中介绍了关于缓冲区的一些细节内容，现在终于可以进入NIO中最有意思的部分非阻塞I/O。通常在进行同步I/O操作时，如果读取数据，代码会阻塞直至有可供读取的数据。同样，写入调用将会阻塞直至数据能够写入。传统的Server/Client模式会基于TPR（Thread per Request）,服务器会为每个客户端请求建立一个线程，由该线程单独负责处理一个客户请

2014-09-11 17:32:17 598

转载 Java NIO使用及原理分析（三）

转载自：李会军•宁静致远在上一篇文章中介绍了缓冲区内部对于状态变化的跟踪机制，而对于NIO中缓冲区来说，还有很多的内容值的学习，如缓冲区的分片与数据共享，只读缓冲区等。在本文中我们来看一下缓冲区一些更细节的内容。缓冲区的分配在前面的几个例子中，我们已经看过了，在创建一个缓冲区对象时，会调用静态方法allocate()来指定缓冲区的容量，其实调用 allocate()相当于创建了一个

2014-09-11 17:30:17 565

空空如也

空空如也