自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 现代信息检索 -- 空间向量模型

王老师的现代信息索引讲的很精彩,但是三节联排的课程总让我的注意力没办法太集中。在这里记录一下知识,也但是回顾了。支持布尔查询的索引办法,在给定一个查询的情况下,可能匹配到的结果非常的多,那么对匹配结果(文档)进行评分或者相关权重分析,就显得尤为重要。一、 参数化索引和域索引    通常的文档都有额外的结构(title,author,content,etc.) ,这些也称为...

2014-10-18 19:18:00 755

转载 eval函数记录

今天有个小程序想要在函数名列表中调用相应的函数处理,却怎么运行不了。初始代码如下:#coding:utf8def h1(): print '函数1'def h2(): print '函数2'if __name__ == '__main__': list1 = ['h1','h2'] for name in list1: ...

2014-08-13 15:06:00 138

转载 抓取新闻的爬虫

此爬虫是基于http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.html,修改而成,因自己也在学习过程中,略微加入了一些注释,更改了部分代码。由于发现博主过滤非文本内容时用的正则表达式很不错,记录一下。#coding=utf-8import sysimport urllib2import reimpor...

2014-08-12 17:22:00 208

转载 抓取MM图片的爬虫

刚学python,试着写了个非常简单的爬虫,爬一些MM的图片下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page.read() return html...

2014-08-12 17:06:00 180

转载 Python中的字符编码问题

  初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。  1.一定要声明#coding=XXX吗?    首先.py文件中,编码默认是ASCII的,一旦py文件中出现了中文...

2014-08-12 16:50:00 128

转载 正则表达式

转载于:https://www.cnblogs.com/hi-net/p/3906979.html

2014-08-12 12:00:00 111

转载 正则表达式中的贪婪非贪婪

近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接<a href="http://www.xxxx.info/post/90934717083">xxxxx</a></br>写的正则表达式为reg = r'<a hre...

2014-08-12 11:39:00 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除