NLP/编译/Python
xn4545945
it just works!
展开
-
NLP中文信息处理---正向最大匹配法分词
弄了好几天正向最大匹配法分词,终于弄完了吧。Python写的。Python确实是一门好语言,写起来很简单、顺手。一、关于正向最大匹配法分词中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。正向最大匹配法:原创 2013-03-26 10:55:08 · 8536 阅读 · 6 评论 -
NLP中文信息处理---倒排索引
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。倒排索引分析:以英文为例,下面是要被索引的文本:T0 = "it is what it is" T1 = "what is it" T2 = "it is原创 2013-04-12 09:13:46 · 4624 阅读 · 0 评论 -
搜索引擎----网络爬虫
网络爬虫以叫网络蜘蛛(Spider或Crawler),网络机器人,是一个程序,会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然,更为高级的技术是把网页中的相关数据分类保存下来,成为搜索引擎的数据源。基本架构图:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直原创 2013-04-28 23:18:20 · 2065 阅读 · 0 评论 -
搜索引擎----Java实现一个简单的网络爬虫
Java实现一个简单的爬虫程序。考虑了robots协议。package SearchCrawler;import java.util.*;import java.net.*;import java.io.*;import java.util.regex.*;/* *搜索Web爬行者(起始的URL、处理url的最大数、要搜索的字符串) *命令行输入:如java Search原创 2013-04-30 23:16:59 · 3045 阅读 · 0 评论 -
Python---语法小结
•Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。语法小结:输出:–print("Hello World!“) 输入:co原创 2013-03-27 22:02:31 · 1351 阅读 · 0 评论 -
编译原理----Lex词法分析器
一、实验目的设计并实现一个词法分析器,深刻理解编译原理中词法分析器的原理。 二、实验内容通过使用自己熟悉的语言设计并实现一个词法分析器,是此法分析器按要求的格式输出经过分析的程序段。要求分析一下程序片段:const a=10;var b,c;procedure p; begin c:=b+a; end;begin read(b); while原创 2012-12-08 21:27:51 · 31554 阅读 · 9 评论