爬虫

package com.softeem.demo;

import java.io.*;

import java.net.MalformedURLException;

import java.net.URL;

import java.net.URLConnection;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

* java 
爬取网站图片

*/

public class Demo {

//java 程序的入口

public static void main(String[] args) throws MalformedURLException {

// 声明初始化

BufferedReader br=null;

PrintWriter pw=null;

//目标网址

String path=“http://www.xiachufang.com/category/40076/”;

try  {

//创建一个URL对象

URL url=new URL(path);

//打开网络连接

URLConnection urlconn=url.openConnection();

//创建一个指定的存储  文件

FileWriter fw=new FileWriter(“E:/picture.docx”);

//创建一个  字符输出流

pw=new PrintWriter(fw);

//创建一个输入  低级流

InputStream is=urlconn.getInputStream();

//将字节流 转换为字符流

InputStreamReader isr=new InputStreamReader(is);

//在转换为缓冲流  因为是一行一行的

br=new BufferedReader(isr);

//声明一个字符串来接受读取到的内容

String str=null;

//循环 按行读取内容

//图片的正则的表达式

String regex="((http):[^\s]*?(jpge|jpg|png|PNG|JPG))";

//将给定的正则表达式 编译成一个模式

Pattern p=Pattern.compile(regex);

while ((str =br.readLine()) !=null){

//指定模式的匹配器

Matcher m=p.matcher(str);

//循环匹配查找

while (m.find()){

//使用输出流写到指定的位置

pw.println(m.group());

}

}

System.out.println(“获取成功”);

}catch (MalformedURLException e){

e.printStackTrace();

}catch (IOException e){

e.printStackTrace();

} finally {

try{

br.close();

}catch (IOException e){

e.printStackTrace();

}

pw.close();

}

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值