![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
研发技术综合
文章平均质量分 77
summerbell
这个作者很懒,什么都没留下…
展开
-
求浮点运算代价
在很多芯片上浮点数运算要占用接近20的时钟周期, 在有些芯片上比你估计的20倍差距还要大。 浮点数运算非常低效又非常重要,所以从386时代浮点协处理器就很普及了,后来直接把这个协处理器做在cpu里面, 现在的这些cpu都是带浮点处理器的, 一次浮点运算只需要2,3个时钟周期,这已经跟整数乘法差不多了(有些阉割版本处理器这方面会差一些)。 总的来说如果你考虑的是pc上的编程,那么浮点运算性能只是略...原创 2009-09-13 21:20:34 · 129 阅读 · 0 评论 -
字符集编码的识别(zz)
字符集编码的识别(zz) 读取文本文件或者接收字节流时需要搞清字符编码才能正确处理,编码识别错误是出现乱码的主要原因。理解编码识别方法之前建议阅读:常用字符集编码的概要特性(一)和常用字符集编码的概要特性(二)。 通过约定识别为了接收字节流时能正确识别编码,很多情况下发送字节流的同时会把字节流对应的编码发送给接收方,这种情况可以理解为发送和接收双方的约定。HTTP协议就有这样...原创 2012-08-15 12:20:43 · 169 阅读 · 0 评论 -
Unicode字碼分佈表(zz)
Unicode字碼分佈表(zz) 0000-007F C0 Control and Basic Latin, 標準ANSI字元0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文0100-024F Latin Extended, 拉丁文0250-02AF IPA Extensions, 拉丁文02B0-02FF S...原创 2012-08-15 11:54:06 · 190 阅读 · 0 评论 -
Unicode语系字碼分佈表(zz)
Unicode语系字碼分佈表(zz) 英文 0041-005A, 0061-007A中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF日文 3040-30FF, 31F0-31FF韓文 1100-11FF, 3130-318F, AC00-D7AF泰文 0E00-0E7F寮文 0E80-0EFF藏文 0...原创 2012-08-15 11:51:44 · 179 阅读 · 0 评论 -
各種語系的unicode對應以及local編碼方式(zz)
各種語系的unicode對應以及local編碼方式(zz) 另:或参见:http://jrgraphix.net/research/unicode_blocks.php?block=87 另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。 一.英文...原创 2012-08-15 11:48:29 · 447 阅读 · 0 评论 -
关键词扩展词表
关键词扩展词表根据目前网络语言的特点,一些敏感词会以诸如拼音、缩写、同音字等等特殊形式出现.据此,敏感词库设计关键词扩展词表用来存储敏感关键词的一些特殊形式.每一种表现形式由一套规则生成,主要规则设计以下六种: (1)同音字(字音变换):关键词中以某个字的同音字替换,如“奥运会”——“澳运会”。(2)拼音:拼音代替汉字,如“奥运会”——“奥yun会”。(3)插人特殊...原创 2010-02-02 11:10:56 · 739 阅读 · 0 评论 -
搜索引擎也开源
搜索引擎也开源From:http://www2.ccw.com.cn/06/0647/b/0647b04_1.html 开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索...原创 2009-08-23 18:11:27 · 97 阅读 · 0 评论 -
史上最全最强的正则表达式
史上最全最强的正则表达式 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^x00-xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式:ns*r评注:可以用来删除空白行 匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?|<....原创 2010-01-05 16:31:46 · 337 阅读 · 0 评论 -
unicode中文范围
unicode中文范围 在网上搜索了一下汉字的Unicode范围,普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的,甚至连基本的全角(中文)标点也未包含在内。根据最新的Unicode 5.0版整理如下:注:在绝大多数应用场合中,我们可以仅用(1)、(2)、(3)、(4)、(5)的集合作为CJK判断的依据。1)标准CJK文字http://www.unicod...原创 2010-01-05 16:27:23 · 142 阅读 · 0 评论 -
WEB开发性能随笔zz
WEB开发性能随笔 目标:开发高性能,可扩展的WEB应用。 1.WEB应用的分层a.前端b.后端 a.前端优化的重要性。分析工具GA和YSLOW1.一个request之前要做的优化。2.不要紧盯WEB后端优化。尽可能的访问服务器之前,消灭掉request. 前端优化的方法1.减少http请求。方法:合并图片:使用CSS或者HTML的MAP...2010-03-26 21:38:10 · 72 阅读 · 0 评论 -
网络陷阱的预防
网络陷阱的预防 4.6网络陷阱的预防在WWW网络中,一些静态网页的超链接可能会形成环路,这会导致爬虫在这个环路中反复执行形成死循环。为了避免掉入这种陷阱,在访问新的URL前,应先与待爬行和已爬行URL队列列表中的URL进行比较,以防将URL重复加入待爬行队列。另外,有些站点的Wbe结构相当深,因而形成了“网络陷阱”。在本系统中对搜索的深度进行了限制。每进入下一级子链接就表示深...原创 2009-10-17 22:55:13 · 307 阅读 · 0 评论 -
JSON和byte[]
Json在Ajax中已得到广泛的应用。相比XML,它有如下的优点: 1. 数据格式比较简单, 易于读写, 格式都是压缩的, 占用带宽小;2. 易于解析这种语言, 客户端Javascript可以简单的通过eval()进行JSON数据的读取;3. 支持多种语言, 包括Actionscript, C, C#, ColdFusion, Java, Javascript, Perl...2009-04-06 16:39:01 · 2976 阅读 · 0 评论 -
MapReduce & Hadoop
MapReduce & Hadoop 2.2.1示例 考虑这样一个例子,在一个很大的文档集合中,计算每一个单词出现的次数。可以使用下面的伪代码表示: Map(String key, String value)://key:文档名//value:文档内容For each Word w in value:Emitlnterme...原创 2009-09-23 22:56:39 · 84 阅读 · 0 评论 -
Google通配符的意义与用法
Google通配符的意义与用法 通配符(wildcard)是一类键盘字符,包括星号(*)、问号 (?)和百分号(%)等,当进行网络或文件查找不知道真正字符或者不想键入完整单词时,可以使用它来代替真正字符或完整的单词。Google使用的通配符属于”全词通配符”(full-word wildcard)是指代替一个单词而不是单词中的某个或几个字母的键盘字符,google的全词通配符是...原创 2009-09-16 10:03:42 · 932 阅读 · 0 评论 -
java正则判断字符串是否包含中文
java正则判断字符串是否包含中文 Java代码 1.String s="大牛这孩"; 2.Pattern pattern=Pattern.compile("[\u4e00-\u9fa5]"); 3.Matcher matcher=pattern.matcher(s); 4.System.out.println(matcher.matches...原创 2012-08-16 21:02:09 · 531 阅读 · 0 评论