![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 52
egowind421
这个作者很懒,什么都没留下…
展开
-
python中匹配中文以及网站名等(基于正则表达式)
昨天在写爬虫的时候需要在html文件中对中文进行匹配,在网上找了找都不是我要的,后面就自己写了个,呵呵,还行。o(∩_∩)o... [code="python"] import re s=""//document.getElementById("zoom").innerHTML = document.getElementById("zoom").innerHTML.replace(...2008-10-14 10:38:22 · 453 阅读 · 0 评论 -
用python编写递归爬取多重网址的网站信息
项目组要得到这个http://kalug.linux.org.tw/~shawn/project/thesis/目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个,用迅雷,flashget好像都没这样的功能:找到给一个链接,然后再递归爬取这个链接下的所有链接的。 于是自己写了一个,好像还行o(∩_∩)o...呵呵 下面是代码,这里主要爬取pdf与doc文件。...2008-10-15 09:54:38 · 805 阅读 · 0 评论 -
yield生成器 提升速度
记住一个原则在python中能简单就做到最简单。 这是修改后的代码: sample= eval(open(Config.trainSample).read()) 这是修改前的具有相同含义的代码: f=open(Config.trainSample,'r').readlines() s=f[0] count=0 li=re...2008-10-26 22:21:16 · 342 阅读 · 0 评论 -
代码复制去除第一列
有的时候经常在一些网站看见有些代码很不错,但是复制的时候连旁边的行标一起复制下来了(类似于javaeye的代码复制,只不过前面不是行标是“#”这个符号)。下图所示:见来源 复制粘贴后是这个样子: 1. xxxxxx 2. xxxxxx 3. xxxxxx 决定用python写个小脚本。觉得有更简单的写法,但是一下不知道怎么写,先发在这里记录一下。 ...原创 2010-01-07 17:35:00 · 317 阅读 · 0 评论 -
pytohn 统计一个文件所有文件的大小
我的ubuntu空间小的可怜,总共就20G,因为是双系统,vista占了100G,汗。。。就这样将就这,其中/home目录只有可怜的7G多,再加上要在淘宝上买东西,所有又装了个虚拟机,用了3G,接着汗。。。接着,某天系统warning,只有不到2M的可用空间,暴汗。。。已经很省着用了,咋个就这么穷,打开目录想看看哪个东西动了我的硬盘,一打开我的妈哟,加上隐藏文件,大大小小直接看不见大小的...原创 2010-01-11 16:43:58 · 125 阅读 · 0 评论