自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

狮子座明仔知识集散场

if you do, you happy. email:507153809@qq.com

  • 博客(13)
  • 资源 (4)
  • 收藏
  • 关注

原创 经典算法题09-字符串模式匹配KMP

一. 提问字符串模式匹配指的是,找出特定的字符串在一个较长的字符串中出现的位置。 有一个长字符串”ababcabababdc”,请问子串”babdc”出现的位置是哪里?二. 思路在字符串模式匹配的学习中,可能首先就会想起将模式字符串和目标字符串逐个去比较,直到匹配为止,这就BF(Brute Force)算法(称为“朴素”算法或者暴力算法),这算法的确可行,但是不高效。BF(Brute Forc

2016-06-29 12:38:46 3353

原创 Trie树

Trie树(字典树)方法介绍1.1、什么是Trie树Trie树,即字典树,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较,查询效率比较高。Trie的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。它有3个基本性质:根节点不包含字符,除

2016-06-24 11:53:01 929

原创 二叉查找树

二叉查找树(binary search tree,又叫二叉搜索树或者二叉排序树)是一种非常重要的数据结构,许多高级树结构都是二叉查找树的变种,例如AVL树、红黑树等,理解二叉查找树对于后续树结构的学习有很好的作用。同时利用二叉查找树可以进行排序,称为二叉排序,也是很重要的一种思想。本文主要参考算法导论,详细介绍二叉查找树的原理及具体的python和java代码实现。1.定义查找树是一种数据结构,它支

2016-06-22 12:37:45 7521

原创 经典算法题08-协同过滤算法

相信大家对如下的类别都很熟悉,很多网站都有类似如下的功能,“商品推荐”,”猜你喜欢“。在实体店中我们有导购来为我们服务,在网络上我们需要同样的一种替代物,如果简简单单的在数据库里面去捞,去比较,几乎是完成不了的,这时我们就需要一种协同推荐算法,来高效的推荐浏览者喜欢的商品。一:概念协同过滤算法(Collaborative Filtering),SlopeOne的思想很简单,就是用均值化的思想来掩盖个

2016-06-21 15:11:16 1073

原创 Ansj中文分词说明

Ansj分词这是一个基于n-Gram+条件随机场模型的中文分词的java实现.分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.源码:https://github.com/NLPchina/ansj_seg

2016-06-17 17:13:15 15240 1

原创 中文分词原理和实现

三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配 按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。查找大机器词

2016-06-17 11:22:15 32405 2

原创 条件随机场模型(CRF)

CRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)

2016-06-16 23:25:00 9248

转载 关于中文分词的一元分词讨论

一元分词:指语句中每个字都成词,按字切分,不去组合,类似英文单词。回合1: 支持一元分词的观点: 其实solr自带的跨语言自然一元分词就很好了,怎么测效果也不比国内搞的分词差,也许大多数情况下不需要国产的中文分词。下面列举原因,欢迎拍砖。 1. 不可能有一种中文分词算法能完全准确地分词,完全按中文分词进行的搜索不能保证搜索的全覆盖,而按字分词的结果是可以保证的 2. 中文分词带来额外的开销,

2016-06-16 23:12:18 4386

转载 开源NLP工具

中文词法分析THULAC:一个高效的中文词法分析工具包包括中文分词、词性标注功能。已经提供C++、Java、Python版本。中文文本分类THUCTC: 一个高效的中文文本分类工具提供高效的中文文本特征提取、分类训练和测试功能。THUTag: 关键词抽取与社会标签推荐工具包GitHub - YeDeming/THUTag: A Package of Keyphr

2016-06-16 23:03:59 1391

原创 经典算法题07-最短编辑距离

这篇我们看看最长公共子序列的另一个版本,求字符串相似度(求最短编辑距离),这是一个非常实用的算法,在DNA对比,网页聚类等方面都有用武之地。一:概念 对于两个字符串A和B,通过基本的增删改将字符串A改成B,或者将B改成A,在改变的过程中我们使用的最少步骤称之为“编辑距离”。比如如下的字符串:dcgaedcb我们通过种种操作,痉挛之后编辑距离为3,不知道你看出来了没有?二:解析设A和B是2个字

2016-06-16 10:24:01 666

原创 经典算法题06-最长子序列

一:作用 最长公共子序列的问题常用于解决字符串的相似度,是一个非常实用的算法,是基本功。二:概念举个例子,cnblogs这个字符串中子序列有多少个呢?很显然有27个,比如其中的cb,cgs等等都是其子序列,我们可以看出子序列不见得一定是连续的,连续的那是子串。 我想大家已经了解了子序列的概念,那现在可以延伸到两个字符串了,那么大家能够看出:cnblogs和belong的公共子序列吗?在你

2016-06-14 10:54:49 876

原创 经典算法题05-完全背包问题

完全背包(CompletePack)问题有N种物品和一个容量为V的背包,每种物品都有无限件可用。第i种物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量,且价值总和最大。 完全背包按其思路仍然可以用一个二维数组来写出: f[i][v]=max{f[i-1][v-k*c[i]]+k*w[i]|0<=k*c[i]<=v}例题问题来源:题目Problem

2016-06-13 12:39:40 831

转载 正确率、召回率和F值

认识正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。 不妨看看这些指标的定义: 正确率 = 正确识别的个体总数 / 识别出的个体总数 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)示例不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Sea

2016-06-02 09:45:14 815

Visual_Assist_X_10.6.1856(破解补丁)

Visual_Assist_X_10.6.1856(破解补丁),解压到安装目录并覆盖就行了。

2012-03-07

整理IP段工具

整理IP段工具,工具集.这个对于网络攻防很有用,希望网友能够安全使用,用在有意义之地。

2012-02-23

用C语言打造贪吃蛇的游戏

用C语言打造贪吃蛇的游戏,这是一个简单的尝试,希望能够共同学习。。

2012-02-23

QQ密码保护查询器.exe及其全部代码

QQ密码保护查询器.exe及其全部代码,对于代码有问题者可以加我讨论!!!

2012-02-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除