活跃度的爬虫开发（一）

最新推荐文章于 2024-08-23 17:59:31 发布

松影

最新推荐文章于 2024-08-23 17:59:31 发布

阅读量392

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/shzm0/article/details/65628061

版权

本文介绍了基础的爬虫开发，通过HTTP请求获取响应，解析内容并利用规则匹配提取信息。作者在GitHub上分享了一个正在进行优化的项目，该项目支持通过CMD查询关键字的活跃度，项目地址为https://github.com/hzm1313/tz，使用插件简化了正则表达式的编写。

摘要由CSDN通过智能技术生成

爬虫最简单的实现就是一个http连接request,然后解析resposne，最后根据样式或者什么规则，进行匹配，然后提取信息，判断是否链接其他页面爬取信息。

我在GIT上面在写了一个关于通过关键字查活跃度，暂时在优化中，暂时支持CMD查询。

GIT地址是 https://github.com/hzm1313/tz

基础实现

public SearchDto keyWordSearchTest(String url,String keyWord){
		SearchDto seD=new SearchDto();
		BufferedReader in =null;
		OutputStream outputStream = null;  
		String reasponseStr=null;
		StringBuffer resHtml=new StringBuffer();
		String line;
		try{
			URL realUrl =new URL(url);
			HttpURLConnection urlConnection = (HttpURLConnection) realUrl.openConnection();
			urlConnection.setRequestProperty("Host", "s.tool.chinaz.com");
			urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:51.0) Gecko/20100101