要想搞爬虫，看这篇就够了-------------记一次微博爬虫系统设计与实现

最新推荐文章于 2024-08-09 08:06:10 发布

置顶宫羽卫-银飞羽

最新推荐文章于 2024-08-09 08:06:10 发布

阅读量929

点赞数 2

分类专栏：自己喜欢后台开发经验积累文章标签：爬虫系统设计

本文链接：https://blog.csdn.net/dainandainan1/article/details/89332589

版权

后台开发同时被 3 个专栏收录

52 篇文章 0 订阅

订阅专栏

经验积累

30 篇文章 0 订阅

订阅专栏

自己喜欢

11 篇文章 0 订阅

订阅专栏

需求：

用户喜欢在微博上发布*****的问题，但是由于人工处理的时效性原因，没法及时有效的对其中负面的信息做发现和回复，影响用户对于*******的认知感受。

微博爬取的实现代码：

/**
 * 根据不同关键字查询
 * 根据URL获取网页信息
 *
 * @param Url
 * @return
 */
private  ResponseEntity<String> getBody(String Url) {

    HttpHeaders headers = new HttpHeaders();
    headers.setContentType(MediaType.APPLICATION_JSON);
    headers.add("Accept", MediaType.APPLICATION_JSON.toString());
    headers.put("user-agent", Collections.singletonList("Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"));
    headers.put("content-encoding", Collections.singletonList("gzip"));
    headers.put("content-security-policy", Collections.singletonList("upgrade-insecure-requests"));
    headers.put("content-type", Collections.singletonList("application/json; charset=utf-8"));
    headers.put("proc_node", Collections.singletonList("web-111.mweibo.bx.intra.weibo.cn"));
    headers.put("server", Collections.singletonList("Tengine/2.2.2"));
    headers.put("ssl_node", Collections.singletonList("ssl-010.mweibo.tc.intra.weibo.cn"));
    headers.put("status", Collections.singletonList("200"));
    headers.put("vary", Collections.singletonList("Accept-Encoding"));
    headers.put("x-powered-by", Collections.singletonList("PHP/7.2.1"));

    MultiValueMap<String, Object> params = new LinkedMultiValueMap<String, Object>();
    RestTemplate restTemplate = new RestTemplate();
    HttpEntity<MultiValueMap<String, Object>> httpEntity = new HttpEntity(params, headers);
    ResponseEntity<String> baseRspBean = null;
    try {
        baseRspBean = restTemplate.postForEntity(Url, httpEntity, String.class);
    } catch (Exception e) {
        LOGGER.info("爬取数据不成功" + Url);
        e.printStackTrace();
    }
    return baseRspBean;
}

URL可以采用：

/**
 * 微博查询URL
 */
private final String WEIBOSEARCHURL = "https://m.weibo.cn/api/container/getIndex?containerid=100103type=61%26q=****&page_type=searchall&page=";

需求难点：

难点1:要求十分钟间隔查询一次，严格的十分钟查询一次容易让微博方发现使用爬虫程序爬取数据

难点2:线上是两个服务器，两台服务器如何考虑协作的问题。

难点3:支持关键字可配置，通知人可配置

难点4：推送爬取数据不要重复

系统设计：