基于Source和正则表达式的Scala网页内容抓取

转载 2015年11月21日 17:31:22


2012年08月04日 ⁄ 综合⁄ 共 1183字 ⁄ 字号 评论关闭

初学Scala,写个简单的抓取作为练手。

网页内容的抓取使用了Scala标准库的Source,网页内容的提取使用了正则表达式。中间练习了集合类的一些操作和文件读写操作,对正则表达式也重温了一下,特别是跨行匹配(多行匹配)研究了一些时间。提取后的文本写在了文件中。在Ubuntu 10.04 和 Scala 2.10.0 下运行成功。

代码如下:

import java.io._

def getIndex() = {
    val indexSource = scala.io.Source.fromURL("http://www.yifan100.com/dir/15136/").mkString
    val indexRegex = """<a target="_blank" href="(.+\.html)" title=".+" >(.+)</a>""".r
    (List[(String, String)]() /: indexRegex.findAllMatchIn(indexSource).toList) { (result, item) =>
        ("http://www.yifan100.com" + (item group 1), item group 2) :: result
    } // return List[(url:String, title:String)]
}

def getContent(url:String) = {
    val raw = scala.io.Source.fromURL(url).mkString
    val reg = """(?s).*<div class="artcontent">(.*)<div id="zhanwei">.*""".r
    (reg findFirstMatchIn raw).map[String](item => {
            val s = (item group 1).replaceAll("<br>", "\r\n").
                replaceAll("""(?s)</?.*?>""", "").
                replaceAll("""^\s+""", "").
                replaceAll(" ", " ")
            s
        }
    ) // return Option[String]
}

def writeContent(content:Option[String], title:String) {
    if(content.isEmpty)
        println("Not write " + title + ".txt")
    else {
        val writer = new PrintWriter(new File(title + ".txt"))
        writer write content.get
        writer.close()
        println("Write " + title + ".txt")
    }
}

def getIt() {
    getIndex().foreach(item => writeContent(getContent(item._1), item._2))
}

getIt()

相关文章推荐

ObjC利用正则表达式抓取网页内容(网络爬虫)

转载自:http://www.cocoachina.com/bbs/read.php?tid=103813 【Qboy】原创 2012年5月20日   在开发项目的过程,很多情况下...

ObjC利用正则表达式抓取网页内容(网络爬虫)

转自:http://www.cocoachina.com/bbs/read.php?tid=103813 【Qboy】原创 2012年5月20日   在开发项目的过程,很多情况下我们需要利...

ObjC利用正则表达式抓取网页内容

来源:http://www.cnblogs.com/zhw511006/category/259909.html 在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情...

转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)

转载自http://blog.csdn.net/sac761/article/details/48379173 android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式) ...

java根据 正则表达式解析html网页内容

仅供参考: import java.io.DataInputStream; import java.io.File; import java.io.FileOutputStream; import ...

java读取(正则表达式分析)网页内容

由于原来的“插入代码”复制方法要把转义符过滤掉,所以下面用文本粘贴: package com.xiaofeng.picup; import java.io.BufferedReader; ...

VC中使用CInternetSession抓取网页内容

VC中使用CInternetSession抓取网页内容   2010-09-02 20:23:13|  分类: vc++ MFC |  标签: |字号大中小 订阅 VC: ...
  • msbbc
  • msbbc
  • 2011年12月01日 11:37
  • 6403

实用网页内容抓取程序

  • 2010年02月08日 22:53
  • 76KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基于Source和正则表达式的Scala网页内容抓取
举报原因:
原因补充:

(最多只允许输入30个字)