Java爬虫

最近一直在网上看到有关于博客,大部分都是关于python写的,很少的代码就可以实现,我自己是学Java的,按捺不住自己,就用Java写了一个小爬虫,爬取了携程上面的酒店信息,来自己玩玩。简单用了spring、springmvc
下面是我自己用的jar包和代码

我用的是jsoup-1.10.3.jar这个jar来进行html文本内容的解析,来得到自己想要的内容

1.获取网页源代码的类

public class GetHtmlResourceByUrl {
//得到网页的源代码
public static String getHtmlResourceByUrl(String url,String encoding){
StringBuffer buffer = new StringBuffer();//创建一个放置临时文件的地方
InputStreamReader isr = null;
//异常机制
try {
//要获取资源,先进入一个网站(你要爬取数据的网站)所以先建立网络连接
URL urlObj = new URL(url); //建立网络链接
URLConnection uc = urlObj.openConnection();//打开网络链接

isr =  new InputStreamReader(uc.getInputStream(), encoding);//建立文件的输入流,装饰设计模式
BufferedReader reader = new BufferedReader(isr);//缓冲 为了更快的读取数据
//创建临时文件
String line = null;
//不为null就继续读
while((line = reader.readLine()) != null){
buffer.append(line+"\n");//保存起来
}
} catch (Exception e) {
e.printStackTrace();
}finally{//一定会执行
try {
if (null != isr) {
isr.close();//关闭流
}
} catch (IOException e) {
e.printStackTrace();
}
}
return buffer.toString();
}
}

2.解析网页源代码,得到自己想要的内容

//解析网页代码,获取采集自定义内容
/**
* @title getHotrlInfo 方法名
* @param url 网址
* @param encoding 编码
* @return List

public class GetHotelInfo {

public static List<HashMap<String,String>> getHotelInfo(String url,String encoding){
//获取网页源代码
String html = GetHtmlResourceByUrl.getHtmlResourceByUrl(url,encoding);

//解析网页源代码
Document document = Jsoup.parse(html);

//获取装载酒店的盒子
Element element = document.getElementById("hotel_list");

//获取每一个酒店列表
Elements elements = document.getElementsByClass("hotel_new_list");
HashMap<String,String> map = null;
List<HashMap<String,String>> maps = new ArrayList<HashMap<String,String>>();
//取出每一个酒店
String tou ="http:";
for(Element el : elements){
//把得到的数据保存起来,创建一个集合,map集合,以键值对的方式:姓名 老王  地址 隔壁
map = new HashMap<String,String>();
//获取酒店图片
String imgSrc =tou+el.getElementsByTag("img").attr("src");//先获取img这个标签,然后根据.atter获取里面的src
//获取酒店的标题
String title = el.getElementsByTag("img").attr("alt");
//获取酒店的描述
String content = el.getElementsByClass("hotel_item_htladdress").text();
map.put("imgSrc",imgSrc);
map.put("title",title);
map.put("content",content);

maps.add(map);//把map键值对放到list中
}
return maps;
}


}

**

3.自己写的action,用来实现前后台的交互

**

@Controller
@RequestMapping("/user")
public class UserAction {
@RequestMapping("/find")
public void find(HttpServletResponse response) throws Exception{
String encoding = "utf-8";
List<HashMap<String,String>> list = GetHotelInfo.getHotelInfo("http://hotels.ctrip.com/hotel/xian10#ctm_ref=hod_hp_sb_lst",encoding);
JSONArray ja = JSONArray.fromObject(list);
response.setCharacterEncoding(encoding);
PrintWriter out= response.getWriter();
out.write(ja.toString());
out.close();
}


}

在前台显示得到的内容得到的结果展示

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值