爬取网页源码之scala篇

为了获取网页代码,一般人是想到直接ctrl+s,就可以保存了。确实比较方便,但是如果遇到子网页比较多就不行了。
在这里插入图片描述
为了方便批量获取网页代码,一个会java或者scala的程序员就不一样了。
比如:
在这里插入图片描述
上代码:

import java.io.{File, PrintWriter}

import scalaj.http.Http


/**
 * author:liming
 * time:2022-01-01
 * tittle:爬取网页源码
 *
 * 需要配置依赖
 * <dependency>
 * <groupId>org.scalaj</groupId>
 * <artifactId>scalaj-http_2.12</artifactId>
 * <version>2.4.1</version>
 * </dependency>
 */
object GetWeb {
  def main(args: Array[String]): Unit = {
    //定义遍历变量
    var num =1
    //定义网址前缀
    var web_name1 = "http://www.pingfandeshijie.net/di-san-bu-"
    //定义网址后缀
    var web_name3=".html"
    //源码本地保存路径,three为文件名前缀
    var path1 = "C:\\Users\\liming\\Desktop\\pfsj\\平凡世界第三部\\"
    //文件名前缀
    var fix = "three"
    //文件后缀
    var path2 =".txt";
    //定义爬取次数
    var n = 54
    //循环获取网址源码并写入文件
    while (num<=n) {
      //将循环变量的值传递给num0并转化为字符串
      var num0=String.valueOf(num)
      //原网址序号为01-54
      if (num<10) num0 ="0"+num0
      //把网址的url拼接起来
      var web_name = web_name1+num0+web_name3
      //使用http获取网页的源码
      val txt =Http(web_name).timeout(100000000,100000000).asString.body
      println(txt)

      //拼接地址和文件名
      var file_name = path1+fix+num0+path2
      //把获取的源码写入文件中
      val printWriter_name = new PrintWriter(new File(file_name))
      printWriter_name.write(txt)
      //关闭PrintWriter流
      printWriter_name.close
      //循环加1
      num=num+1
      //跑一次休息两秒,防止被封ip
      println("为了防止ip被封,程序正在休息中")
      Thread.sleep(2000)
    }
 }
}
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值