自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (12)
  • 收藏
  • 关注

转载 网页分类技术介绍

1.       技术背景分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。在搜索

2012-09-27 09:45:23 1199

转载 大数据进行时:聚光灯后的四大推手

这是一篇来自留英信息工程博士周文哲(@Wennie文哲)的一篇投稿,她于去年创业成立幸福佩智公司,专注于提供 Hadoop 的大数据处理与分析解决方案,产品已被应用到互联网广告、物联网等行业。“大数据”这一话题在国内从今年起受到投资者追捧,也不断有高技术人才选择这个方向创业;但实际上国外对于“大数据”,已经走过了概念炒作阶段,出现了实际的应用,产生了实际的效益。周文哲这篇投稿,为我们详细揭

2012-09-19 18:01:52 3235

转载 基于主特征空间相似度计算的切分算法

摘要: 本文从切分的需求、作用、难点等方面谈起,介绍分析了目前主流的各种切分方法以及其优缺点,并介绍了一个新型的无监督切分方法,并在此基础上对切分在工程需求上进行了相应的分析和讨论,在最后在此算法基础上给出一个融合各种优点的切分框架。关键词: 中文分词, Query Segmentation,无监督技术领域: 自然语言处理我们为什么要切分?说到切分(segm

2012-09-07 16:07:22 1659

转载 词语语义相似度计算简介

0. 动机武林高手经常从山川之间顿悟,并由山川之形变化出上乘武艺。风云之间的飘渺互动,实则也为实打实的科学、工程实践提供了指引。风是客观存在的,而只有籍由云,我们才能观察到它。在技术领域的日常工作中,诸如此类的例子数不胜数。而在自然语言语义的研究中,先驱者们把这个道理总结成了一条假设——上下文假设[i]:“实体的含义,以及实体之间语法关系的含义和这些实体与其他实体之间组合方式的限制有关

2012-09-07 16:04:51 3652

转载 线性判别分析(LDA), 主成分分析(PCA)

前言:    第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。   谈到LDA,就不得不谈谈PCA,PCA是一个和LDA非常相关的

2012-09-07 15:48:01 666

转载 决策树模型组合之随机森林与GBDT

前言:    决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。    模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果

2012-09-07 15:46:04 813

转载 搜索引擎中的粒度问题

一.前言传统的搜索引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义更加丰富化,即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”,比“文档”更加宽泛和丰富,比如一个关于天气的查询,直接返回一个天气预报的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文字

2012-09-07 15:03:32 2742 1

转载 HTML5技术的调研以及贴吧应用总结

文档简介:贴吧在进行HTML5技术应用的过程中,进行了一系列的技术调研;本文对HTML5的技术调研进行总结,尽可能客观的分析解答对HTML5技术的一些疑问,给出产品、技术上的一些决策建议。对于文中的内容以及表述,也热切希望能得到大家进一步的指正和交流。1. HTML5的发展现状及趋势1.1 HTML5简介HTML5是一套技术标准、规范,它定义了一系列的API

2012-09-04 18:02:50 3542

转载 文本去重之MinHash算法

1.概述    跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index    在介绍MinHash之前,我们先介绍下Jaccard index。

2012-09-04 00:32:33 978

转载 文本去重之SimHash算法

说到文本相似性计算,大家首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫

2012-09-04 00:31:26 919

转载 相似度计算常用方法综述

引言       相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用,进行一些常用的相

2012-09-04 00:09:11 1271

转载 多模匹配算法与dictmatch实现

多模式匹配在这里指的是在一个字符串中寻找多个模式字符字串的问题。一般来说,给出一个长字符串和很多短模式字符串,如何最快最省的求出哪些模式字符串出现在长字符串中是我们所要思考的。该算法广泛应用于关键字过滤、入侵检测、病毒检测、分词等等问题中。多模问题一般有Trie树,AC算法,WM算法等等。我们将首先介绍这些常见算法。1.hash可以单字、双字、全字、首尾字hash。

2012-09-03 23:56:31 719

转载 大话PHP之性能

1缘起关于PHP,很多人的直观感觉是PHP是一种灵活的脚本语言,库类丰富,使用简单,安全,非常适合WEB开发,但性能低下。PHP的性能是否真的就如同大家的感觉一样的差呢?本文就是围绕这么一个话题来进行探讨的。从源码、应用场景、基准性能、对比分析等几个方面深入分析PHP之性能问题,通过真实的性能数据来说话,最终找出影响PHP模块性能的关键因素。2从原理分析PHP性能从原理分析

2012-09-03 23:37:45 598

转载 主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用        传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有

2012-09-03 16:49:45 724

计算机基础精华

总结各种IT面试基础精华,对面试很有帮助

2014-06-04

LeetCode题解

通向米国IT求职的极佳面试必备算法题库,经过分类整理

2014-06-04

手写代码必备手册

分类整理了各种常用面试算法,对算法要求较高的面试极为有用

2014-06-04

多种方法求2个数的最大公约数

介绍求最大公约数的方法:辗转相除法、二进制操作法等多种方法

2010-05-04

软件项目管理 人件中文第二版

《人件》第1版于 1987 年出版,专门讨论了软件开发和维护团队的管理问题,并向人们的传统认识提出了挑战。作者在书中推崇人本管理思想,正确指出知识型企业的核心是人,而不是技术,呼吁给予软件工作者充分的自由和信任。本书推出后,立即在西方引起了轰动,被誉为“几十年来对美国软件业影响最大的理念”。与《人月神话》一样,《人件》现已成为软件团队管理的经典之作。它和《人月神话》共同被誉为软件图书中“两朵最鲜艳的奇葩”。人们认为,《人月神话》关注“软件开发”本身,《人件》则关注软件开发中的“人”,因此,在成千上万的书架上,《人件》永远和《人月神话》并列在一起。1999 年 2 月,《人件》第2版出版,增补了8 章新内容。这些新内容拥有更加宽广的视角,对大中型组织中的团队如何运作进行了深入探讨。

2009-02-22

linux基本命令大全

由于操作和使用环境的陌生,如果要完全熟悉Linux的应用我们首先要解决的问题就是对Linux常用命令的熟练掌握。本书我们就来介绍Linux的常用基本命令

2009-01-08

编程高手箴言.chm

本书是作者十余年编程生涯中的技术和经验的总结。内容涵盖了从认识CPU、Windows运行机理、编程语言的运行机理,到代码的规范和风格、分析方法、调试方法和内核优化,内有作者对许多问题的认知过程和透彻的分析,以及优秀和精彩的编程经验。

2009-01-08

Oracle 9i10g编程艺术

oracle 9i10g编程艺术(中文版)TOM经典

2008-12-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除