Fhaohaizi的博客

个人博客:http://blog.fv1314.xyz/

groovy+springboot写一个整合新闻资源的页面

本人在使用spring boot写测试服务的过程中,遇到了一些需要将数据展示给测试人员的问题,在简单学习了html知识之后,终于写到了一个表格版的数据展示方案。顺便用爬虫爬取了几个新闻门户的最新新闻做个页面,分享一下。 本次包括爬虫和spring boot里面的代码,全部采用了groovy。传送...

2018-11-09 15:42:51

阅读数:56

评论数:0

groovy爬虫练习之——企业信息

话不多说,信息源暂时隐藏了,获取数据的方法依然才去了regex正则匹配的方法,请求框架采用了java,爬虫语言是groovy,本地拼接好sql语句,发送到mysql服务端,完成存储。 代码如下: package com.fan import com.fantest.httpclient.F...

2018-10-22 10:22:56

阅读数:73

评论数:0

groovy爬虫实例——历史上的今天

最近做了一个历史上今天的爬虫程序,跟历史天气数据源一致,数据量比较小,几十秒就爬完了。中间遇到一些问题,一起分享出来供大家参考。本项目源码和相关数据已经上传到了github,有兴趣的朋友可以去看看,会不定期更新。 github传送门 弄了一个查看地址:有兴趣可以点击一下 1.get请求发送s...

2018-09-11 09:48:17

阅读数:81

评论数:0

groovy爬虫爬取720万条城市历史天气数据

2018年09月07日更新: 内容爬虫完毕,校验完毕,缺失信息暂未统计。总数据720万,地区3200个,年份从2011-2018,大小950Mb,有需要的可以联系我,数据每个月更新一次。中间遇到了很多坑,有机会我再写一遍博客专门讲讲大量数据爬虫遇到的坑。 ---------------...

2018-09-04 17:43:26

阅读数:155

评论数:0

httpclient爬虫爬取汉字拼音等信息(关键信息未隐去)

下面是使用httpclient爬虫爬取某个网站的汉字相关信息的实践代码,中间遇到了一些字符格式的问题。之前被同事见过用html解析类来抓取页面信息,而不是像我现在用正则,经常尝试,效果并不好,毕竟页面放爬虫还是非常好做的。在本次实践中,就遇到了相关的难点,所以还是才去了正则提取的方式。分享代码,供...

2018-08-27 16:16:34

阅读数:100

评论数:0

httpclient爬虫爬取电影信息和下载地址实例(编码格式转化)

2018年08月22日更新 本次更新主要解决了老旧页面下载链接可能是迅雷和ftp格式的,还有就是去重,因为每一页有一个推荐列表,里面也会有相应的详情链接,还有兼容了另外的页面格式,更新了两个方法: public static void spider(int pa) { Lis...

2018-08-21 11:55:03

阅读数:108

评论数:0

接口爬虫之网页表单数据提取

本人最近接到一项任务,要爬一项数据,这个数据在某个网页的表格里面,数据量几百。打开调试模式发现接口返回的就是一个html页面,只要当做string处理。(解析html文件用xpath爬虫有些麻烦)方案采用了正则匹配所有的单元行,然后提取单元格内容,这里面遇到了一些其他问题: 1、本来采用直接提取...

2018-08-10 09:46:45

阅读数:341

评论数:0

httpclient 多线程爬虫实例

本人最近在研究安全测试的过程中,偶然发现某站一个漏洞,在获取资源的时候竟然不需要校验,原来设定的用户每天获取资源的次数限制就没了。赶紧想到用爬虫多爬一些数据,但是奈何数据量太大了,所以想到用多线程来爬虫。经过尝试终于完成了,脚本写得比较粗糙,因为没真想爬完。预计10万数据量,10个线程,每个线程爬...

2018-02-24 16:56:08

阅读数:202

评论数:0

httpclient 爬虫实例——爬取中学名(总计6万+)

本人在使用 httpclient 的过程中,突然想起来可以爬取一些数据,比如全国的中学名。当然不是空穴来风,之前也做过这方面的爬虫,不过基于selenium 做的 UI 脚本,效率非常慢,而且很不稳定,所以这次采取了接口的形式,果然效率提升了几个档次。一共6万+数据,用了16分钟左右,期间包括数据...

2018-02-06 16:31:01

阅读数:172

评论数:0

selenium2java如何把爬到的内容直接存到数据库中

本人在使用selenium2java做爬虫的时候,一开始是把爬到的内容存到一个map里面,等结束了再去写到excel表格里,中途经验因为各种原因停止,所以每次运行的次数也不多,后来觉得没爬一条,直接放到数据库里面比较合适,就尝试本地装了一个mqlserver,实验之后,效果不错。分享出来供大家参考...

2017-08-22 11:13:30

阅读数:248

评论数:0

selenium2java两个小爬虫示例

本人在使用图灵机器人的过程中,需要丰富一下机器人知识库里面的笑话、段子等内容,就得去网上爬一些内容下来,经过尝试终于成功了,效果一般般,主要原因是添加的知识条目审核不通过,还有就是爬虫次数限制,暂时放弃了,以后打算用接口做爬虫,selenium爬起来很容易出错,浏览器加载太慢了,一旦次数太多很耗时...

2017-08-16 19:26:08

阅读数:320

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭