自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 架设Wikipedia的本地镜像

本文试图总结架设Wikipedia镜像的过程。 准备工作 首先需要安装Mediawiki软件,以及Mediawiki所依赖的软件,Apache,Php5,Mysql等,这里就不详细讲解了。对于懒人,有两个选择:第一是安装Debian[1],这样apt-get install mediawiki就可以完成软件的安装。第二是下载VMWare Player[...

2011-04-07 10:14:25 1868

利用wikipedia 的API实现对其内容的查询

wikipedia提供了api可以供我们对其内容进行操作。其API文档地址为:http://en.wikipedia.org/w/api.php 列举一些常见用法:1、全文搜索http://en.wikipedia.org/w/api.php?action=query&list=search&srsearch=fluoxetinesrsearch为要检索的内...

2010-11-02 11:37:41 540

python解析HTML的工具总结

做HTML解析工作也有好多次了,每次总是面临着选择不同工具的困惑。刚刚开始时正则表达式,之后用beautifulsoup,还用过python自带的htmlparser,sgmlparser。在前几篇博客中还提到了其自身的一些bug. http://john2007.iteye.com/blog/559840做数据提取的时候,越来越感觉到美丽的汤功能的有限,最终还是选择了Xpath。在用xp...

2010-10-04 11:24:11 175

原创 用于虚拟筛选的小分子化合物库使用专业导读

药物设计是随着药物化学学科的诞生相应出现的。早在20世纪20年代以前,就开始进行天然有效成分的结构改造。而目前药物设计的方向主要集中在小分子方面,尤其是在里宾斯基五原则、RO3原则等药物设计的经典原则出现后,人们对化合物的选择方向也发生了变化。目前市场热点主要集中在:小分子杂环化合物、天然产物、肽类、糖类等等。世界上也随之出现了很多商业公司专门为药物设计和发现提供各类用于筛选的化合物以提高工作效率...

2010-06-15 17:45:52 1853

原创 分子对接软件大比拼

文献报道过的或者没报道过的分子对接软件有很多,很多最初都是由实验室开发,免费发布。当软件很完善,没有什么缺陷时,可能会被专门的商业软件公司购买,就变成了某个大型软件包中的模块。其实不止分子对接软件,其他还有药效团软件、定量构效关系软件、数据库筛选软件等,都是这样的发展历程。不过,其中还是有一些实验室,在商品化大潮的影响下屹立不倒,依旧免费给我们提供免费的强大的软件,甚至是源代码(source co...

2010-06-15 17:13:51 3726 2

原创 基于python的crawler

考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此以前主要还是使用htmlparser的方案。    考察垂直爬虫的几个原则:性能较高:较好支持多线程并发处理;支持异步、非阻塞socke...

2010-06-14 09:38:02 167

原创 更正一个GAE SDK的bug

当我们在gae的数据存储中存储了数据后,可以利用SDK提供的 sdk console (http://localhost:8081/_ah/admin/datastore)方便的进行数据的浏览和修改。 但是如果字段中有中文数据记录,就会出错。一个stack就猜到是中文编码的问题。(部署在服务器上好像没有此现象。)具体更正方法就是对字符进行正确的编码。 1、所有的py文件用utf...

2010-01-20 15:03:48 125

原创 自动检测文件编码

对于抓取的网页处理时,我们往往要判断它的字符编码,今天发现了python的一个自动判断编码的lib,特与众分享.名称:chardet介绍:Character encoding auto-detection in Python 2 and 3. As smart as your browser. Open source. 下载地址:http://pypi.python.org/p...

2009-12-31 11:19:48 133

原创 有关字符编码的问题收集

http://blog.minidx.com/2008/10/22/1570.htmlhttp://blog.minidx.com/2008/11/06/1607.htmlhttp://blog.minidx.com/2008/12/06/1689.htmlhttp://blog.minidx.com/2008/12/09/1700.html  摘录1:  GB...

2009-12-31 09:43:07 181

原创 htmlparser 解析html标签中文属性且未加标签 bug解决办法

bug:利用HTMLParser解析 带有中文属性的标签,例如:"<img alt=周润发 src="/html"/>"会出现如下错误: raise HTMLParseError(message, self.getpos())HTMLParser.HTMLParseError: junk characters in start tag: u'\u5468\u...

2009-12-30 16:25:43 456

原创 htmlparser vs sgmlparser 解析html的单个标签br img

上一次发现了SGMLParser的bug,(见Python sgmlparser bug)于是就想到了利用HTMLParser,于是对其利用同样的HTML代码做了测试: 测试代码如下: class postparser(HTMLParser): def __init__(self): HTMLParser.__init__(self) ...

2009-12-30 10:57:19 132

原创 Python sgmlparser bug

无法正确解析<br/><img src=""/>等单个标签: 测试代码如下: class TestSGMLParser(SGMLParser): def __init__(self, verbose=0): self.testdata = "" SGMLParser.__init__(self, verbos...

2009-12-29 19:19:15 100

原创 Some of the Best Open Source Project's in VC++ & MFC

IntroductionThis article lists of some of the best Open Source projects written in VC++/MFC. BackgroundCodeProject has the best source code repository for VC++ developers. But another site Sourc...

2009-10-11 11:11:05 194

原创 最常见的20种VC++编译错误信息

 1、fatal error C1010: unexpected end of file while looking for precompiled header directive。   寻找预编译头文件路径时遇到了不该遇到的文件尾。(一般是没有#include "stdafx.h")   2、fatal error C1083: Cannot open include file: 'R…….h...

2009-04-06 09:26:25 84

图像的单色变换——原理与实现(Single color transformation)

Single color transformation——Principle and implement From May 1 to May 3, I have a 3-day holiday. When I was on the Internet, I downloaded some resource about image process by cha...

2009-01-16 22:03:08 397

原创 文本/Web挖掘推荐书目

*****e事通论坛可下载到以下部分电子书Survey of Text Mining II: Clustering, Classification, and RetrievalClassification and Clustering for Knowledge Discovery (Studies in Computational Intelligence)Classification and ...

2009-01-09 14:36:09 171

几个有趣的python开源项目

一直都对搜索引擎很感兴趣,因此有一个是python的蜘蛛程序。另一个是用python操作pdf格式文件。 1、用python来做一个蜘蛛程序抓取网页,有了urllib库,真是太简单了。另外网页的解析也有相应的库sgmllib可以使用。不过还不知道python的sgmllib有没有类似 Jtidy 的规范html代码的功能,或者是有另外的库来干这事。比较有名气的:Harvest Man---...

2009-01-04 13:05:12 504

利用python操作access,sql server数据库

本文主要介绍了python如何利用 ADO访问windows平台下的数据库,比如access,sql server.(译者注:作者原文用的IDE是pythonwin,但我的pytonwin重装了两遍了就是用不起来,就算写个helloworld运行也崩掉,妈的,只好用IDLE了)Table of Contents  Running MakePy DSN Opening...

2009-01-02 22:08:40 634

中英文对照python tutorial

中英文对照的python简明教程,挺好懂的,拿出来分享了。独乐乐,与人乐乐,孰乐?老鸟就别看了。

2008-12-30 15:42:20 111

asp.net多数据分页方法

1、使用自带分页功能的控件gridview。优点:方便,代码量少,拖拉控件,修改属性就可以了。缺点:不灵活,大数据量存在速度和效率问题。 2、datalist和datarepeater简单、方便、灵活。所需代码量增加。<asp:DataList ID="DataList1" runat="server" CellPadding="4" ForeColor="#333333" &g...

2008-12-25 14:38:16 101

Why does C# have both 'ref' and 'out'?

ref out 两种参数传递方式都允许调用者更改传递来的参数的值,两者之间的不同很小,但很重要。两者最重要的不同就是他们所修饰的参数的指定值的方式不同。 带有out参数的方法在被调用之前不需要为out参数指定值,但是,在方法返回之前必须为out参数指定值。很绕口啊,看个例子吧:class OutExample{ // Splits a string containing a f...

2008-12-14 22:05:30 82

原创 七千年来被国人误解的七句古话

1、以德抱怨   原句:「或曰:『以德报怨,何如?』子曰:「何以报德?以直报怨,以德报德」————《论语宪问》   以德抱怨,是我们常听到的一句话了,人们通常理解的「以德抱怨」什麼意思呢?就是说:孔老夫子教我们,别人欺负你了,你要忍,被打碎牙齿也要往肚子裡吞,别人来欺负你,你反而应该对他更好,要用你的爱心去感化他,用你的胸怀去感动他。这就让人感觉很有点肃然了。想想看,如果我一巴掌呼过去那个被打的人...

2008-12-05 14:59:42 325

类似linux下的多选项卡ms-dos控制台终端

用了几天的ubuntu,感觉命令真的很方便。禁不住在win平台下也用了起来。但是那个cmd.exe只是一个窗口对应一个终端,如果我要开多个终端,就得有多个窗口。结果任务栏就有被多个窗口占据了很多位置,设置还折叠了起来。很是麻烦。于是,捣鼓了半天,用.net 2.0做了个多选项卡的终端。 个人水平有限,还有不少bug。特别是可能牵扯到管道之类的东西。不过基本的命令还是可以运行的。 使用:...

2008-12-05 13:07:22 102

自己动手写HTTP Server(1)——hello,world篇

自己动手写个类似iis的服务器?是的,但是功能肯定没有iis强大。  原理介绍:1)服务器端监听一个端口;2)客户端(浏览器)发出请求,比如:输入http://localhost:5555/,回车;3)服务器端得到请求,返回请求的相应内容,当然了,一定要遵循http协议的格式,要不然那,浏览器是解析不出内容地; 学习程序开发的第一步就是hello,world.今天咱也来个htt...

2008-12-04 22:02:11 527

基于角色的认证和授权

 今天看了codeproject上面的一片文章,感觉不错。作者主要是用form authentication 实现了基于角色的认证。功能还算可以,基本可以代替MS 的Membership了,但是没有membership那么庞大。做一个基本的应用是够用了。  翻译一下大概内容,大意记录如下: 作者实现了4个网页,功能是:添加用户,给用户指定角色,删除角色,管理角色。The Classe...

2008-12-03 21:47:06 256

原创 What the data miners are digging up about you

16:20 28 November 2008 by Amanda Gefter and Tom Simonite For similar stories, visit the Books and Art Topic GuideIn today's technological world we leave electronic traces wherever we go, whether sho...

2008-12-02 09:13:18 144

rails 安装问题集

学习了ruby的基础语法后,决定试试rails.看了rails的安装相关博客后,感觉挺简单,一个命令gem install rails --remote就可以搞定。 谁知试了好几个命令,gem install rails --include-dependencies --source http://gems.rubyonrails.org/ gem install railsgem i...

2008-12-02 09:08:56 167

原创 我要开始学习脚本语言(我的题目,别人的文章)

为了选择一个合适的脚本语言学习,今天查了不少有关Perl,Python,Ruby,Javascript的东西,可是发现各大阵营的人都在吹捧自己喜欢的语言,不过最没有争议的应该是Javascript现阶段还不适合用来做独立开发,它的天下还是在web应用上。我主要是想做数据挖掘算法的研究,应该会处理大量的文本。提到文本处理,相信大部分人都会说应该用Perl。的确,Perl的文本处理很强大,但是它的语...

2008-11-30 10:10:04 301

java不用odbc设置数据源连接access的方法

废话不多说了,直接上代码: public static void jAccess(){ String url="jdbc:odbc:driver={Microsoft Access Driver (*.mdb)};DBQ=F:\\2005\\mytoxicrawler\\OSHA\\bin\\Debug\\OSHA.mdb"; try{ Class.forName("sun....

2008-11-20 15:32:13 353

原创 Weka加载大数据量内存不足的解决办法

150M的训练集用WEKA做起来应该比较困难有这么几个办法: 1 增加内存。 其实WEKA不光可以用物理内存,还可以占用虚拟内存。把JAVA的可用内存设置成2G的话,如果机器的物理内存只有1G,操作系统是会在需要时自动在硬盘上划分一块出来作为虚拟内存的。不过这时候一般会处理得比较慢,因此不推荐这个方法。 2 抽样。从训练集中随机抽取一部分数据来作训练。在二分类的时候,一般样本数量达到几千个...

2008-11-14 16:53:21 672

Classic quotes of science

Indulge your passion for science, says Nature, but let your science behuman, and such as may have a direct reference to action and society.Abstruse thought and profound researches I prohibit, and wi...

2008-11-01 11:23:00 145

语义网的学习资源大汇集(转)

 网上资源 http://bbs.w3china.org/    W3CHINA 讨论区 - 语义网,本体的研究论坛 ftp://bookshelf:bookshelf@202.38.126.147:2004/ ftp://w3c:w3c@ftp3.xml.org.cn/ ftp://w3c:w3c@ftp.xml.org.cn/ http://sunsite.informatik.r...

2008-10-08 14:48:00 259

把美女变成字符

如何把一张图片转换成用不同字符表示的文本文件?原理:一张m*n大小的图片,实际上可以看成是一个m*n的矩阵。矩阵的每一个元素就是一个Color值,不同的Color值,用不同的Ascii可以在屏幕上打印显示的字符来代替,于是可以得到一个m*n的每一个元素是一个Ascii字符的两维矩阵,矩阵的每一行就是像素矩阵的每一行。再把这个字符矩阵输出到文本文件中保存,便可以得到图像对应的文本文件。当然了,所用...

2008-05-10 18:29:00 903

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除