- 博客(3)
- 收藏
- 关注
原创 firefox的插件--xpath解析网页用
一直想把自己这段时间做的东西整理下,确迟迟没有动手,现在信息抽取工作已经做的差不多,把自己感觉很好用的两个工具介绍给大家吧! Firefox真是一个好东西,它许多插件。本人是很讨厌插件的,每次电脑里都会安装一大堆无用的插件,看着心里不爽。由于项目需要,要看网页的代码,并且找到有用信息,如果下载一个html页面,用记事本打开看,那无异于是一场灾难,幸好同事给我推荐了firebug这个看代码
2013-04-26 18:33:40 1456
原创 Beautiful Soup 4解析网页
Beautiful Soup 4的安装及相关问题Beautiful Soup的最新版本是4.1.1可以在此获取(http://www.crummy.com/software/BeautifulSoup/bs4/download/) 文档:(http://www.crummy.com/software/BeautifulSoup/bs4/doc/) 使
2013-04-15 19:22:26 1293
原创 python爬虫
用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。-这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,
2013-04-10 23:12:02 928
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人