Java,jsoup天龙八部畅易阁爬虫

获取角色元宝数量和采矿等级。

 

 

public class Changyige {
	
	public static void main(String[] args) throws InterruptedException  {
		
		
		for (int i =2; i < 22; i++) {
			String htmlAdress = "http://tl.cyg.changyou.com/goods/selling?world_id=5121&world_name=%25E6%25B8%2585%25E6%25AD%258C%25E9%2581%25A5%25E6%259C%259B%25E6%259C%2588&area_name=%25E7%25BA%25B5%25E6%25A8%25AA%25E5%258F%258C%25E7%25BA%25BF&have_chosen=&page_num="+i;
			
			Document doc = null;
			try {
				doc = Jsoup.connect(htmlAdress).get();
			} catch (IOException e) {
				System.out.println(i);
				e.printStackTrace();
			}
			Elements link = doc.select("a");//查找第一个a元素
			Set<String> s = new TreeSet<>();
			for (int j = 0; j < link.size(); j++) {
				String linkHref = link.get(j).attr("href"); // "http://example.com/"//取得链接地址
				//System.out.println(linkHref);
				
				  if(j>=123 && j<=181) { s.add(linkHref); }
			}
			
			
			

			
			for (String address : s) {

				Document docc = null;
				try {
					docc = Jsoup.connect(address).get();
				} catch (IOException e) {
					System.out.println(address);
					e.printStackTrace();
				}
				try {
					//if(getYBCount(docc)>4000 ) {
					//	System.out.println(address);
					//}
					
					if( getLifeCount(docc) >6) {
						System.out.println("    -        "+address);
					}
				} catch (IOException e) {
					
					e.printStackTrace();
				}
				Thread.sleep(1000l);

			}
			Thread.sleep(200l);
			
		}
		
		
		
		
		
	}
	
	//获取元宝数量
	public static int getYBCount(Document doc) throws IOException {
		//201909212135597616
		
		
		Elements links = doc.getElementsByClass("row2");
		String linkText = links.get(29).text();
		int count = Integer.valueOf(linkText.substring(5));
		return count;
	}
	
	
	//获取采矿等级
	public static int getLifeCount(Document doc) throws IOException{
		
		Elements elements = doc.getElementsByTag("script");
		
		String text = elements.get(8).data();
		Document document = Jsoup.parse(text);
		Elements links = document.getElementsByClass("method-info");
		String text2 = links.get(links.size()-6).text();
		int level = Integer.valueOf(text2.substring(6));
		return level;
	}

}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您好!对于使用Java编写网络爬虫,我们可以使用Jsoup库来进行HTML解析和数据抓取。 首先,您需要在项目中引入Jsoup库。您可以在Maven或Gradle构建工具中添加以下依赖项: Maven: ```xml <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency> ``` Gradle: ```groovy implementation 'org.jsoup:jsoup:1.13.1' ``` 接下来,您可以使用Jsoup来获取和解析网页内容。以下是一个简单的示例代码,演示如何使用Jsoup来爬取网页并提取所需的数据: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class WebCrawler { public static void main(String[] args) { try { // 使用Jsoup连接到目标网页 Document document = Jsoup.connect("http://example.com").get(); // 使用CSS选择器提取所需的元素 Elements links = document.select("a[href]"); // 遍历并打印提取到的元素 for (Element link : links) { System.out.println("Link: " + link.attr("href")); System.out.println("Text: " + link.text()); } } catch (IOException e) { e.printStackTrace(); } } } ``` 在上面的示例中,我们使用`Jsoup.connect()`方法连接到目标网页,并使用`document.select()`方法使用CSS选择器提取所有带有`href`属性的链接元素。然后,我们遍历这些链接元素,并打印出链接的URL和文本。 您可以根据自己的需求进一步扩展和修改代码来满足特定的爬虫需求。请注意,在编写爬虫时,请遵守相关网站的使用条款和政策,以避免违反规定。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值