爬虫研究
bobopeng
这个作者很懒,什么都没留下…
展开
-
利用python爬虫抓取OJ上做题信息(终结版)
import webbrowserimport reimport urllib#获取hdu网页def getHtml_hdu(url): page = urllib.urlopen(url) html = page.read() #unicodehtml = html.decode("utf-8") #return unicodehtml retu原创 2014-01-13 21:43:17 · 4304 阅读 · 2 评论 -
利用python爬虫抓取OJ上做题信息(扩展版)
网络爬虫主要是抓取指定的html网页后从获取到的网页中利用正则表达式提取我们需要的信息。Python给我提供了几个模块供我们使用,在源代码中可以看到它们的用法。 利用用python的urllib和urllib2模块实现网络爬虫比较简单: a、写出合适的正则表达式 b、用urllib2的urlopen函数打开指定的网页并将网页内容读取到字符串中原创 2014-01-14 10:50:49 · 2113 阅读 · 0 评论 -
自己动手写CSDN博客提取器,提取文件保存支持PDF、doc、txt三种格式
转载自:http://blog.csdn.net/w397090770/article/details/7760907下载地址http://download.csdn.net/detail/w397090770/4438566(不需要积分)下面有网友说爬取到的博文没有任何博主的信息,今天我更新了一下代码, 在每一篇爬取到的博文中添加了作者博客名字以及这篇博文的地址,详细见下图。用了转载 2014-06-21 23:57:24 · 1021 阅读 · 0 评论 -
自己动手写CSDN博客提取器源码分析之一:处理网页保存为txt文件
转载自:http://blog.csdn.net/w397090770/article/details/7767531 在昨天上午发了一个帖子[原创]自己动手写CSDN博客提取器,提取文件保存支持PDF、doc、txt三种格式有很多网友比较感兴趣,有些网友说要公布一下源码,在这里,我就把这个软件制作的一些核心代码贴出来,给大家分享。下面是把抓取到的网页用正则表达式处理留下纯文本然后保存转载 2014-06-21 23:58:49 · 655 阅读 · 0 评论 -
自己动手写CSDN博客提取器源码分析之二:处理网页保存为doc文件
转载自: http://blog.csdn.net/w397090770/article/details/7768089 下面是把抓取到的网页用itext包保存为doc文件,过程很简单的。下面是这个类的实现:[java] view plaincopy/** * */ package com.wyp.html2doc; import java.i转载 2014-06-22 00:00:28 · 600 阅读 · 0 评论 -
自己动手写CSDN博客提取器源码分析之三:处理网页保存为pdf文件
转载自: http://blog.csdn.net/w397090770/article/details/7768129 下面我讲下处理pdf文件的,这里我用了PD4ML来处理的,原因有几个:(1)、它对CSS的支持做的很好;(2)、可以处理图片(很爽吧)(3)、可以处理中文,不过麻烦一些。基础的过程可以看我的另外一篇帖子java编程将HTML文件转换成PDF文件http://b转载 2014-06-22 00:10:13 · 1069 阅读 · 0 评论