- 博客(277)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
转载 河南人一定要看的关于自己城市的说法(转自校内网)
2008年12月20日 星期六 下午 12:06提示:郑州忙,开封荒,鹤壁拽……洛阳,一个被古代帝王宠坏的城市;安阳文化是一种断层的文化;如果城市有性别,新乡是男性的;平顶山被称为“中原小深圳”;信阳是一个养尊处优的好地方;濮阳全省最干净;商丘值得期待;周口尚待发展…… 因为对着故乡故土的热爱,本贴借助这篇贴子发起“我评河南十八城”网评活动。请您对所生活的、生活过的
2010-05-04 12:09:00 6650
转载 一个睡五分钟等于六个钟头的方法[FROM:天涯社区]
睡觉的诀窍所以,根据医学和我的体验、观察,一个人真正睡着觉最多只有两个钟头,其余都是浪费时间,躺在枕头上做梦,没有哪个人不做梦。至于醒来觉得自己没有做梦,那是因为他忘记了。通常一个人睡两个钟头就够了,为什么有人要睡七、八个钟头?那是你赖床躺在枕头上休息的习惯养成的,并非我们需要那么久的睡眠时间,尤其打坐做功夫的人晓得,正午只要闭眼真正睡着三分钟,等于睡两个钟头,不过要对好正午的
2010-05-04 12:06:00 1305
原创 [转帖]网页爬虫程序开发经验谈
转帖自:blog.chinaunix.net/u2/86783/showart_2032137.html现在是网络的时代,所有数据都可以在互联网上得到,所以能够自动抓取Web数据的网页爬虫程序(又叫网络机器人,Web Robot)就逐渐流行了起来。开发网页爬虫的过程,需要运用各种Heuristic(摸索体验)的作法:尝试你的想法,修正预期以外的错误(错误通常相当多),一再重复进行,直到网页爬虫可行
2010-04-25 20:36:00 824
原创 一个邪恶的脚本
1.说明笔者所在的局域网有8个节点,平时到了晚上总有人看网络视频,害的我qq几乎都登不上(这可不是夸张的说辞)。。网页打不开,让我几乎与网络无缘了。。。。于是,想了个办法挤占网速。。下面上脚本2.#!/bin/shwhile truedoscp -r /home/mingyuan/arc mingyuan@192.168.1.122:/home/mingyuan/shellssh mingyuan
2010-04-20 22:58:00 627
原创 Java单例模式:饿汉式和懒汉式的实现
本文参考IcyFenix在javaeye的博客http://icyfenix.javaeye.com/blog/575052讲述的内容向IcyFenix致敬!1、饿汉式package singleton;/*** 饿汉式单例* @author 蒋明原**/public class HungrySingleton {/**jvm保证instance只被初始化一次*/private static Hu
2010-04-14 15:36:00 681
原创 班智达转换为喜马拉雅
1.将文字弄到word,字体等设置如下图2.将word中文字复制到wordpad3.安装、运行、设置转换软件:The Unicode Document Processor安装运行方式全部默认,下面上设置截图(这是最重要的一步)注意下图右上角的注意下图的字体设置(调出此窗口的路径:Options->font)备注:上面用到的软件可在http://ishare.iask.sina.com.cn/f/3
2010-04-10 10:27:00 8765 1
原创 Ubuntu下安装firefox,并创建快捷方式的方法
1)、下载firefox2)、tar -xvf firefox-3.6.3.tar.bz23)、mv firefox /opt4)、cd /usr/share/applications5)、sudo touch firefox.desktop6)、sudo nano firefox.desktop,编辑内容为[Desktop Entry]Name=FirefoxComment=this is
2010-04-05 10:02:00 1619
原创 ubuntu 10.04安装小企鹅(fcitx)输入法
1)、删除系统默认输入法:sudo apt-get autoremove ibus 2)、 下载输入法并安装,下载地址:http://fcitx.googlec
2010-04-04 19:21:00 1099
原创 ubuntu 10.04安装sun版本jdk
方法源于:http://www.andrewsavory.com/blog/archives/001508.html1)、sudo add-apt-repository ppa:yofel/off-ppa 2)、sudo apt-get update3)、sudo apt-get install sun-java6-jre sun-java6-jdk sun-java6-plugin
2010-04-04 19:18:00 980
原创 java 乱码问题-Dfile.encoding=UTF-8
问题描述: 程序涉及到国际化问题,httpclient抓回来的数据乱七八糟的乱码,在转了几次编码之后在Myeclipse下可以获取正常编码的源码(准确的说是能显示一大部分,少部分内容依然乱码),但是将程序移植到eclipse下先前的程序就出现了乱码(移植工作曾经尝试过以下几种形式:1,程序从myeclipse中导出,然后再从Eclipse中导入;2,将Eclipse工作空间切换到myeclipse
2010-04-03 10:28:00 34131
原创 ubuntu 9.10 中国科学技术大学源(sources.list)
deb http://debian.ustc.edu.cn/ubuntu/ hardy main restricted universe multiversedeb http://debian.ustc.edu.cn/ubuntu/ hardy-backports restricted universe multiversedeb http://debian.ustc.edu.cn/ubuntu/
2010-04-03 09:05:00 1556
原创 Linux crontab定时执行任务
1、设置定时任务的命令是crontab -e首次使用crontab的时候会让你选择编辑工具,看个人喜好了。选择一个即可。如果以后想换默认编辑工具,可以按照下面的提示运行命令“select-editor“进行选择。Select an editor. To change later, run select-editor.1. /bin/ed2. /bin/nano 3. /usr/
2010-04-02 18:59:00 2475
原创 MyEclipse安装FatJar
help >software updates >add/remove software>add>>add site填写name 和urlname:Fat Jarurl:http://kurucz-grafika.de/fatjar,这个是FatJarUpdateSite. 之后要把fatjar那项打钩。接下来就一路Next吧。。
2010-03-25 13:41:00 2199
原创 TF-IDF:网页和某个查询的相关性
TF-IDF:网页和某个查询的相关性 计算 TF:关键词的频率 、单文本词汇频率 Term Frequency 衡量关键词在单个网页中出现的频率。关键词的次数/单个网页的总字数(去掉应删除词(stopwords))。 IDF:逆文本频率指数 Inverse document frequency 衡量一个词在整个文档集(所有网页)中的权重。Log(D/Dw) ,一个关键词w在Dw个网页中出现过,D是
2010-03-16 17:25:00 782
原创 失败的方案
去年设计了一个MapReduce的单机多线程C++版实现,由于没有充分考虑磁盘读写瓶颈,性能提不上去,宣告失败. 通过这个案例有如下几个方面的思考: 1.MapReduce是集群级别的应用,处理的解决单机无法解决的大文件,海量数据的处理问题.HDFS将文件分块,并将他们分部在不同的节点上,运算的时候多个节点同时进行.数据尽量不通过网络传递,这就是为了避免网络传输影响速度.我的程序是将数据全部集中在
2010-02-28 10:30:00 662
原创 正则表达式中Matcher的group()、start()、end()带参方法解析
最近学习正则表达式,发现Java中的一些术语与其他地方描述的有所差异。比如Java正则表达式中的“组”概念与《正则表达式必知必会》一书中讲述的“子表达式”其实是一样的,只是表述不同而已。由此也引发了使用JavaAPI时对group(int group)、start(int group)、end(int group)不是太理解。在阅读了关于正则表达式问题:有谁用过Matcher类的g
2010-02-26 00:48:00 14304
原创 使用ICU进行字符集探测 文档译稿
使用ICU进行字符集探测文档译稿原文http://userguide.icu-project.org/conversion/detectionCharacter Set Detection 字符集探测Overview 概述 字符集探测是对未知格式的字符数据进行确定字符集或者编码的过程。这充其量是一个使用统计学和启发式方法进行的一项不精确的操作。也正因如此,如果可以提供一种语言的至少几
2010-02-06 13:24:00 3361
原创 使用ICU4J探测文档编码
网页源码的编码探测一般有两种方式,一种是通过分析网页源码中Meta信息,比如contentType,来取得编码,但是某些网页不的contentType中不含任何编码信息,这时需要通过第二种方式进行探测,第二种是使用统计学和启发式方法对网页源码进行编码探测。ICU4J就是基于第二种方式的类库。由IBM提供。下面的例子演示了一个简单的探测过程。package org.mingyuan.icu4j;im
2010-02-04 16:43:00 3470
原创 GBK、GB18030、GB2312 区别
概括一下:GB18030向下兼容GBK、GB2312。GBK向下兼容GB2312 以下内容转自:http://blog.sina.com.cn/s/blog_62c074450100fllj.htmlGBK、GB18030、GB2312 区别 1、 标准标准编号:GB 2312-1980标准名称:信息交换用汉字编码字符集 基本集标准状态:现行英文标题:Code of chinese graph
2010-02-03 11:28:00 1143
原创 使用Shell脚本查找程序对应的进程ID,并杀死进程
#!/bin/shNAME=$1echo $NAMEID=`ps -ef | grep "$NAME" | grep -v "$0" | grep -v "grep" | awk {print $2}`echo $IDecho "---------------"for id in $IDdokill -9 $idecho "killed $id"doneecho "--------------
2010-01-27 19:06:00 18568 2
原创 Nutch分布式检索配置过程及端口启动顺序对搜索结果的影响分析
Nutch分布式检索配置过程及端口启动顺序对搜索结果的影响分析蒋明原(2010/1/25) Nutch分布式检索配置过程及端口启动顺序对搜索结果的影响分析实验条件:a),nutch-1.0从原始nutch-1.0.tar.gz中解压出之后没有经过任何改动b),tomcat中 nutch-1.0web工程拷贝nutch-1.0中的nutch-1.0.war到tomcat/webapps目录中
2010-01-26 00:50:00 907
原创 远程拷贝命令――scp
1、文件拷贝$scp filename1.txt user@remotehost:/path/to/destination之后会提示输入user在remotehost上的密码,确认之后就开始拷贝。2、目录拷贝$scp -r directoryname user@remotehost:/path/to/destination同样需要输入密码,确认之后开始拷贝
2009-12-10 22:54:00 647
原创 4.Hadoop I/O
原稿发布在我另外一个博客http://hadoopforcloud.javaeye.com4. Hadoop I/O4.1. Data Integrity 数据完整性 一般使用checksum检查数据的完整性,但是他仅能检查完整性,而不提供任何的修复办法,checksum的值也有出错的可能。 Hadoop采取了不同策略的checksum来克服以上的不足 4.1.1. Data Integrity
2009-12-10 22:21:00 1390
原创 3.The Hadoop Distributed File System
原稿发布在我另外一个博客:原稿发布在我另外一个博客http://hadoopforcloud.javaeye.com3. The Design of HDFS HDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。 HDFS不足: 低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文
2009-12-10 22:17:00 954
原创 Nutch分布式检索配置
Nutch版本:0.7.2,也适用于1.01、 同样Nutch程序分发在N台服务器上2、 在一台服务器上部署tomcat,修改其中nutch-site.xml,将search.dir指向包含search-servers.txt的目录3、 search-servers.txt目录中存放运行nutch服务的服务器ip及其监听端口4、 启动各个nutch server。server [port] /pa
2009-12-09 18:11:00 775 4
原创 linux下面tar gzip zip bzip使用指南
转自:http://www.ixdba.net/article/b2/515.htmltarlinux下面的归档工具。是对文件或者目录进行归档,归成一个文件,但并不压缩。语法格式tar [主选项+辅选项] 文件或者目录列表 主选项-c 创建新的档案文件-r 把要归档的文件追加到档案文件的末尾IXDBA.NET技术社区-t 列出档案文件中已经归档的文件列表-u 更新文件,用新文件替代档案中原始文件
2009-12-02 16:00:00 724
原创 2.MapReduce
2. MapReduce 2.1. A Weather Dataset 一个天气数据集 数据是NCDC的数据,我们关注以下特点: 1) 数据是半格式化的 2) 目录里面存放的是从1901-2001年一个世纪的记录,是gzip压缩过的文件。 3) 以行为单位,使用ASCII格式存储,每行就是一条记录 4) 每条记录我们关注一些基本的元素,比如温度,这些数据在每条数据中都会出现,并且宽度也
2009-12-01 23:11:00 1170
原创 1. Meet Hadoop
1. Meet Hadoop 1.1. Data 数据 本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。 1.2. Data Storage and Analysis 数据存储和分析 现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。 读取硬盘上的全部数据会花费比较长的时间,如果是写操
2009-12-01 23:10:00 728
原创 vc6.0程序界面实现XP风格方法
本文转帖自:http://ily961.bokee.com/3306477.html关于让自己的程序界面实现XP风格这个问题,在网上的讨论很多,大多数的作法都是写一个.manifest文件,然后将文件名改一下,比如.exe文件为test.exe,就将这个.manifest文件改名成test.exe.manifest,并将其和test.exe放在同一个目录里,这样test.exe在XP或2003(
2009-10-12 17:36:00 796
原创 用java抓取cnproxy代理服务器地址
昨晚写了个用java抓取cnproxy代理服务器地址的小程序,放到csdn上了,大家有兴趣的话可以去看下,地址如下:http://blog.csdn.net/telnetor/archive/2009/07/04/4320790.aspx为什么不发这儿呢?答:百度hi空间发代码效果太差。
2009-07-04 09:17:00 711
原创 作业
大学的课一般都是上18周,给一周左右的复习时间,第20周考试考试,然后就放假了。来这所学校之后,一切都变了。学期一开始基本没课,也就一个英语和两个选修课。英语课大家都不上,两外两门课都早早的结课了。到了快要18周的时候,剩下的专业课接踵而至了。从18周开始一直到20周,几乎每天都有课,并且是连着上的。大概一门课两天时间结束,周末也被当作上课时间了。上两天课,然后给布置一篇论文。于是乎,要
2009-06-27 01:04:00 551
原创 晋豫夏天之比较――初步版
来山西一年了,这里给我的感觉一直以来总是清凉的,直到今天。 凌晨5点钟醒了一次,有点热,于是开门睡觉。到了上午9点钟左右,房间里面的温度开始上升,到了中午饭之后,汗流浃背。2009年6月25日,是我来山西一年来最热的一天了。中午睡觉的时候感觉床板是烧的,但是为了防止着凉,还是盖了被罩。。开始的时候是就盖上了肚子,最后感觉腿有点暴露的感觉,不是很舒服,就把腿也盖上了。不
2009-06-26 01:01:00 1098
原创 感觉老大了
今天在天涯上看了一个帖子,内容是一个女研究生的自述。讲述的是她和男友偷吃禁果之后不小心有了孩子,之后就张罗着结婚的事情。看后又想起了一同学给我说她现在就只想毕业,结婚,生孩子,过生活了。。。都是80后,那发帖的还是和我同岁。想想,真是不小了。 在我上初一的时候就有小学同学弃学结婚;再往后到了高中,一次放假,一初中同学见我说"以后当了老师要照顾下我们家孩子啊!"。我听了很诧异
2009-06-24 00:22:00 872 1
MSXML6.0 SDK
2009-08-30
Linux - Teach Yourself Shell Programming in 24 Hours
2008-04-20
Java与c++进行Socket通信问题--求帮助
2011-05-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人