- 博客(7)
- 收藏
- 关注
转载 现代信息检索 -- 空间向量模型
王老师的现代信息索引讲的很精彩,但是三节联排的课程总让我的注意力没办法太集中。在这里记录一下知识,也但是回顾了。 支持布尔查询的索引办法,在给定一个查询的情况下,可能匹配到的结果非常的多,那么对匹配结果(文档)进行评分或者相关权重分析,就显得尤为重要。 一、 参数化索引和域索引 通常的文档都有额外的结构(title,author,content,etc.) ,这些也称为...
2014-10-18 19:18:00 707
转载 eval函数记录
今天有个小程序想要在函数名列表中调用相应的函数处理,却怎么运行不了。初始代码如下: #coding:utf8 def h1(): print '函数1' def h2(): print '函数2' if __name__ == '__main__': list1 = ['h1','h2'] for name in list1: ...
2014-08-13 15:06:00 120
转载 抓取新闻的爬虫
此爬虫是基于http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.html,修改而成,因自己也在学习过程中,略微加入了一些注释,更改了部分代码。由于发现博主过滤非文本内容时用的正则表达式很不错,记录一下。 #coding=utf-8 import sys import urllib2 import re impor...
2014-08-12 17:22:00 195
转载 抓取MM图片的爬虫
刚学python,试着写了个非常简单的爬虫,爬一些MM的图片下来。记录一下 #coding=utf-8 import urllib,time import re global x x=0 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html ...
2014-08-12 17:06:00 163
转载 Python中的字符编码问题
初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。 1.一定要声明#coding=XXX吗? 首先.py文件中,编码默认是ASCII的,一旦py文件中出现了中文...
2014-08-12 16:50:00 95
转载 正则表达式中的贪婪非贪婪
近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。 记录一下本是想在一个html中抓取大量这种模式的href连接 <a href="http://www.xxxx.info/post/90934717083">xxxxx</a></br> 写的正则表达式为 reg = r'<a hre...
2014-08-12 11:39:00 80
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人