【Java爬虫】自己写爬虫练手，刷CSDN访问量--学习

奥古斯汀

已于 2024-10-09 10:02:26 修改

阅读量583

点赞数 1

分类专栏：爬虫技术文章标签：爬虫 java

于 2020-01-11 13:31:03 首次发布

原文链接：https://blog.csdn.net/sinat_42483341/article/details/96134556

版权

爬虫技术专栏收录该内容

1 篇文章 0 订阅

订阅专栏

仅供学习、测试使用，不要为了刷数据偷懒噢...
使用方式
将要刷访问量的博客地址(可以是CSDN主页、CSDN任意博客页)填写入第23行的变量MYURL中，点击运行即可
本程序【自动检测】该页所对应博主的【用户ID】，并访问该博主【用户ID】名下所有博客链接
运行效果

代码
package cn.hanquan.file;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

import java.io.*;
import java.util.ArrayList;
import java.util.List;

/*
* --------------------自动刷CSDN博客访问量程序--------------------
*
* 将要刷访问量的博客地址(可以是CSDN主页、CSDN任意博客页)填写入23行的变量MYURL中，点击运行
* 本程序【自动检测】该页所对应博主的【用户ID】，并访问该博主【用户ID】名下所有博客链接
*
* 仅供学习测试使用，不要真的用于刷访问量，因为不知道会不会被封号...
*/
public class UrlCrawBoke {

public static String MYURL = "https://blog.csdn.net/zhhp1001/article/details/89352869";// 【填写】要爬取的首页

public static String PATH = System.getProperty("user.dir");

public static void main(String urlstr[]) throws IOException {

List<String> urls = new ArrayList<String>();

       // ---------------------------------------------------截取用户ID---------------------------------------------------
       StringBuilder url = new StringBuilder(MYURL);
       int begin = url.lastIndexOf("csdn.net/");
       begin += 9;
       int end = url.indexOf("/", begin);
       if (end <= begin) {
           end = url.indexOf("?", begin);
           if (end <= begin) {
               end = url.length();
           }
       }

String userId = url.substring(begin, end);

       if (userId.equals("blog")) {// 如果提交的是用户主页重新截取
           begin = url.lastIndexOf("blog/");
           begin += 5;
           end = url.indexOf("/", begin);
           if (end <= begin)
               end = url.indexOf("?");
           userId = url.substring(begin, end);
       }
       System.out.println("用户名: " + userId);

       // ----------------------------------------------遍历每一页获取文章链接----------------------------------------------
       final String homeUrl = "https://blog.csdn.net/" + userId + "/article/list/";// 后面加pageNum即可
       int totalPage = 0;
       InputStream is;
       String pageStr;
       StringBuilder curUrl = null;
       for (int i = 1; i < 100; i++) {
           curUrl = new StringBuilder(homeUrl);
           curUrl.append(i);
           System.out.println(curUrl);
           is = doGet(curUrl.toString());
           pageStr = inputStreamToString(is, "UTF-8");// 返回一个inputStream

           // 生成源代码文件
           PrintWriter pw = new PrintWriter(new FileWriter(PATH + "/Page" + i + ".txt"), true);
           pw.print(pageStr);
           pw.close();
           File filename = new File(PATH + "/Page" + i + ".txt");
           InputStreamReader reader = new InputStreamReader(new FileInputStream(filename));
           BufferedReader br = new BufferedReader(reader);// inputStream转化为BufferedReader 便于逐行读取

System.out.println("正在获取第" + i + "页...");

           String line = null;
           while (true) {
               line = br.readLine();
               if (line == null || line.indexOf("</main>") != -1)// 读到末尾或者 main标签结束
                   break;
               else {
                   if (line.indexOf("http") != -1 && line.indexOf("/details/") != -1 && line.indexOf("yoyo_liyy") == -1
                           && line.indexOf(userId) != -1) {// 条件:包含http, /details/, userId, 不包含yoyo_liyy
                       String tempUrl = new String(line);
                       tempUrl = tempUrl.trim();
                       // System.out.println("t=" + tempUrl);
                       tempUrl = tempUrl.substring(tempUrl.indexOf("http"), tempUrl.indexOf("/details/") + 17);
                       if (urls.size() == 0 || (urls.size() != 0 && !(urls.get(urls.size() - 1).equals(tempUrl)))) {// 空，或者非空且没有有重复
                           // 写入
                           urls.add(tempUrl);
                           System.out.println(tempUrl);
                       }
                   }
               }
           }

br.close();

           if (pageStr.lastIndexOf("空空如也") != -1) {
               System.out.println("No This Page!");
               break;
           } else {
               System.out.println("Success~");
           }
           totalPage = i;
       }
       System.out.println("总页数为: " + totalPage);

       // ---------------------------------------------------访问每个链接---------------------------------------------------
       for (int i = 0; i < urls.size(); i++) {
           doGet(urls.get(i));
           System.out.println("成功访问第" + (i + 1) + "个链接,共" + urls.size() + "个:" + urls.get(i));
       }

       // ---------------------------------------------------程序结束---------------------------------------------------
       System.out.println("运行完毕，成功增加访问数：" + urls.size());
   }

   public static InputStream doGet(String urlstr) throws IOException {
       URL url = new URL(urlstr);
       HttpURLConnection conn = (HttpURLConnection) url.openConnection();
       conn.setRequestProperty("User-Agent",
               "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36");
       InputStream inputStream = conn.getInputStream();
       return inputStream;
   }

import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/*
* --------------------自动刷CSDN博客访问量程序--------------------
*
* 将要刷访问量的博客id填写入24行的变量userId中，点击运行
* 本程序访问该博主【用户ID】名下所有博客链接
*
* 仅供学习测试使用，不要真的用于刷访问量~
*/
public class UrlCrawBoke {

static String userId = "sinat_42483341";

public static void main(String urlstr[]) throws IOException, InterruptedException {

Set<String> urls = new HashSet<String>();

       // ----------------------------------------------遍历每一页获取文章链接----------------------------------------------
       final String homeUrl = "https://blog.csdn.net/" + userId + "/article/list/";// 后面加pageNum即可
       int totalPage = 0;
       InputStream is;
       String pageStr;
       StringBuilder curUrl = null;
       for (int i = 1; i < 100; i++) {
           Thread.sleep(1000);
           System.out.println("finding page " + i);
           curUrl = new StringBuilder(homeUrl);
           curUrl.append(i);
           System.out.println(curUrl);
           is = doGet(curUrl.toString());
           pageStr = inputStreamToString(is, "UTF-8");// 一整页的html源码

           List<String> list = getMatherSubstrs(pageStr, "(?<=href=\")https://blog.csdn.net/" + userId + "/article/details/[0-9]{8,9}(?=\")");
           urls.addAll(list);

           if (pageStr.lastIndexOf("空空如也") != -1) {
               System.out.println("No This Page!");
               break;
           } else {
               System.out.println("Success~");
           }
           totalPage = i;
       }
       System.out.println("总页数为: " + totalPage);

       // ---------------------------------------------------打印每个链接---------------------------------------------------
       System.out.println("打印每个链接");
       for (String s:urls) {
           System.out.println(s);
       }
       System.out.println("打印每个链接完毕");

       // ---------------------------------------------------访问每个链接---------------------------------------------------
       int i=0;
       for (String s:urls) {

           doGet(s);
           System.out.println("成功访问第" + (++i) + "个链接,共" + urls.size() + "个:" + s);
       }

   public static String inputStreamToString(InputStream is, String charset) throws IOException {
       byte[] bytes = new byte[1024];
       int byteLength = 0;
       StringBuffer sb = new StringBuffer();
       while ((byteLength = is.read(bytes)) != -1) {
           sb.append(new String(bytes, 0, byteLength, charset));
       }
       return sb.toString();
   }

   // 正则匹配
   public static List<String> getMatherSubstrs(String str, String regex) {
       List<String> list = new ArrayList<String>();
       Pattern p = Pattern.compile(regex);
       Matcher m = p.matcher(str);
       while (m.find()) {
           list.add(m.group());
       }
       return list;
   }
}
————————————————
版权声明：本文为CSDN博主「寒泉Hq」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/sinat_42483341/article/details/96134556