- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 测试爬虫 爬取百度贴吧 爬取百度搜图图片
测试爬取百度贴吧图片定义爬取百度斗图吧首页的每条贴子的URL的爬取规则对象 /** * 斗图吧贴子的url */ SpiderFunction<Set<String>> doutubaTieZiUrl = spider -> { // 文本爬取对象 TextSpider textSpider = (Text...
2019-09-17 10:17:23 2197
原创 爬虫流对象调整
爬虫流对象调整之前的爬虫流对象只是整合了Stream 流 作为Stream 流的一个入口来进行使用 现在将SpiderStream 流作为一个包装流来使用 等于说内部维护了一套Stream流对象 自己对外是只与自己调用代码:package com.tpddy.spider.plugin.spider;import cn.hutool.core.util.StrUtil;impo...
2019-09-17 09:17:02 1843
原创 爬虫 爬取策略封装成对象
上次说了爬取数据时页面元素的截取,为了方便以后更灵活的使用 这次将爬取规则封装成一个一个的对象 这样在以后的使用中就可以更灵活的使用了1.首先封装爬取规则的java类package com.tpddy.spider.plugin.spider;import java.util.List;import java.util.stream.Collectors;/** * 自定义爬取...
2019-09-10 14:01:52 2025
原创 自定义爬虫筛选规则
最近迷上了爬虫 在网上找了几个框架 发现用起来都不是特别舒服 在页面筛选元素时 要么只能使用正则 要么就是操作DOM树,还有使用Xpath作为页面元素提取的, 一些其他的设置用起来也不是很顺手因此打算自己编写一个简单的爬虫框架, 方便将来使用本篇只有页面元素选择的代码首先分析 我们平时使用爬虫的时候一般爬取的页面内容包括什么一. 内容就是正文:开始标签和结束标签中间的文字二. 标签的属...
2019-09-09 17:05:35 2561
原创 ActiveMQ做消息队列拦截功能
ActiveMQ做消息队列拦截功能操作步骤操作步骤首先先到ActiveMQ官网下载最新的最稳定的版本 http://activemq.apache.org/activemq-5158-release.html 我下载的是Windows版本的直接解压双击运行bin/win64/activemq.bat . 弹出黑窗口 (黑窗口不要关) 访问localhost:8161 如果出现页面 ...
2019-03-11 11:13:16 3288 4
原创 dubbo监控服务 获得运行在dubbo上的服务信息
dubbo监控服务由于公司领导要求笔者开发一套dubbo服务监控系统 因为本人技术有限 实在无法自己独自一人搞定 只好参照前人的经验 自己仿照着写了个监控平台 这里笔者选择的是韩都衣舍的大牛们写的dubbo-monitoring项目 本文主要对dubbo-monitoring 的核心部分做分析 韩都衣舍的dubbo-monitoring项目连接 附:https://gitee.com/han...
2019-01-15 16:10:06 4045
java银行工具类java银行工具类
2019-03-08
PL/SQL 用户指南 中文版
2019-01-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人