纸上得来终觉浅,绝知此事要躬行

“交流、互助、提升”

用springboot+vw-crawler轻松抓取CSDN的文章

使用springboot+vw-crawler轻松抓取CSDN的文章 有关VW-Cralwer的介绍可以看这里,简单轻便开源的一款Java爬虫框架。 下面结合比较流行的框架SpringBoot抓取CSDN的数据(有关的Spingboot的使用可以参考这里) 配置POM 使用Spring...

2018-07-22 11:19:34

阅读数:112

评论数:0

一套简单的java爬虫框架VW-Crawler发布啦!!!

VW-Crawler 背景 自己一直对爬虫比较感兴趣,大学的毕业论文也是一个爬虫项目(爬教务处信息,然后做了个Android版教务管理系统,还获得了优秀毕业设计的称号),自那以后遇到自己感兴趣的网站就会去抓一下。前段时间工作上需要一些JD信息,我就从网上找了个开源的爬虫框架WebMagic...

2018-07-19 22:17:10

阅读数:123

评论数:0

Springboot与Selenium合体变蜘蛛爬企查查

最近工作上需要一些企业的详细的数据,工商信息啦,基本信息啦,还有一些关系图(投资关系、人物图谱)之类的,然后我来负责从企查查上弄些数据。 强调:下面只是快速实现数据抓取的思路,没有详细的代码,同时也拒绝伸手党。   现实中,一些工商信息网站会被无数的爬虫“骚扰”,所以网站的反爬虫策略也是越来越...

2018-01-09 23:27:57

阅读数:1502

评论数:3

微信小程序娱乐---哇哦窝

自从去年微信小程序诞生到现在已经有段时间了,个人还是挺看好小程序的,去年的时候就打算玩一玩小程序,但是一直都抽不出时间。自从上次弄了台阿里云ECS之后,就又有了玩玩小程序的欲望,于是花了两个晚上的时间玩了玩,算是开发完成了。

2017-07-30 17:23:10

阅读数:593

评论数:0

CSDN博客迁移至Hexo之同步CSDN博文到本地MD文件

动机  自从我把Github+Hexo的博客“交给”Google之后,每天都有几十位的访客2333,访客少的原因有许多,一个是文章较少,二是百度虫子没有爬到我的页面,就会导致即就算直接搜索博客里面的内容,百度都不会返回我的地址,就这个情况我已经使用百度和谷歌去处理了,至于文章较少的问题,我打算做个...

2017-07-16 17:40:41

阅读数:1147

评论数:2

代码里的“随机应变”

说在前头  有段时间没更新了,期间发生了很多事,这里就不一一赘述,有一个要说一下, 之前我放在github上的springbootquick代码结构我重新整理了一下,因为我觉得branch的方式去完善每个小功能不太直观,索性找个时间全都整理在了一起,方便大家观看 项目地址为https:/...

2017-06-04 09:34:39

阅读数:465

评论数:0

Javaer,你必须要了解的ExecutorService

之前做的一个功能里有一个耗时操作:处理数据库里对应的记录,然后将每个处理后的结果做个排序。    恕本人小白,刚开始直接用单线程处理!你敢信?!然后60多万条记录,跑了三分钟才出结果!当时我就震惊了,这尼玛要被“刁”的节奏啊。但我并没有什么好的解决方案,便去咨询老大,然后老大直接丢过来一段代码附...

2017-03-30 23:11:39

阅读数:751

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭