- 博客(7)
- 收藏
- 关注
转载 现代信息检索 -- 空间向量模型
王老师的现代信息索引讲的很精彩,但是三节联排的课程总让我的注意力没办法太集中。在这里记录一下知识,也但是回顾了。支持布尔查询的索引办法,在给定一个查询的情况下,可能匹配到的结果非常的多,那么对匹配结果(文档)进行评分或者相关权重分析,就显得尤为重要。一、 参数化索引和域索引 通常的文档都有额外的结构(title,author,content,etc.) ,这些也称为...
2014-10-18 19:18:00 755
转载 eval函数记录
今天有个小程序想要在函数名列表中调用相应的函数处理,却怎么运行不了。初始代码如下:#coding:utf8def h1(): print '函数1'def h2(): print '函数2'if __name__ == '__main__': list1 = ['h1','h2'] for name in list1: ...
2014-08-13 15:06:00 138
转载 抓取新闻的爬虫
此爬虫是基于http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.html,修改而成,因自己也在学习过程中,略微加入了一些注释,更改了部分代码。由于发现博主过滤非文本内容时用的正则表达式很不错,记录一下。#coding=utf-8import sysimport urllib2import reimpor...
2014-08-12 17:22:00 208
转载 抓取MM图片的爬虫
刚学python,试着写了个非常简单的爬虫,爬一些MM的图片下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page.read() return html...
2014-08-12 17:06:00 180
转载 Python中的字符编码问题
初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。 1.一定要声明#coding=XXX吗? 首先.py文件中,编码默认是ASCII的,一旦py文件中出现了中文...
2014-08-12 16:50:00 128
转载 正则表达式中的贪婪非贪婪
近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接<a href="http://www.xxxx.info/post/90934717083">xxxxx</a></br>写的正则表达式为reg = r'<a hre...
2014-08-12 11:39:00 96
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人