自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 firefox的插件--xpath解析网页用

一直想把自己这段时间做的东西整理下,确迟迟没有动手,现在信息抽取工作已经做的差不多,把自己感觉很好用的两个工具介绍给大家吧!    Firefox真是一个好东西,它许多插件。本人是很讨厌插件的,每次电脑里都会安装一大堆无用的插件,看着心里不爽。由于项目需要,要看网页的代码,并且找到有用信息,如果下载一个html页面,用记事本打开看,那无异于是一场灾难,幸好同事给我推荐了firebug这个看代码

2013-04-26 18:33:40 1456

原创 Beautiful Soup 4解析网页

Beautiful Soup 4的安装及相关问题Beautiful Soup的最新版本是4.1.1可以在此获取(http://www.crummy.com/software/BeautifulSoup/bs4/download/) 文档:(http://www.crummy.com/software/BeautifulSoup/bs4/doc/) 使

2013-04-15 19:22:26 1293

原创 python爬虫

用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。-这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,

2013-04-10 23:12:02 928

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除