![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
月夜归醉
学无止境
展开
-
selenium+phantomjs 模拟抓取淘宝分类信息
selenium+phantomjs集成到项目中做到无界面模拟用户行为,请参考https://github.com/Lixianshengchao/phanbedder.githttps://github.com/Lixianshengchao/phanbedder.git @Test public void keyWorkGenerate() throws IOExcep...原创 2018-04-26 13:10:26 · 2341 阅读 · 0 评论 -
Java正则表达式
?=pattern为前向肯定 用法:(xxxx)(?=pattern) 只有(?=pattern)匹配的情况下,才会去匹配(xxxx)?<=pattern为后向肯定 用法 (?<=pattern)(xxxx) 只有(?<=pattern) 匹配的情况下,才会去匹配(xxxx),匹配的结果不捕获(?<=pattern)这段实战:获取淘宝搜索页脚本 g_page_co...原创 2018-05-07 12:52:37 · 1932 阅读 · 0 评论 -
反爬虫策略
目录 一 通过请求头来控制访问二 通过IP限制来反爬虫三 通过JS脚本来防止爬虫四 配置ssl,采用绕过证书验证实现https 一 通过请求头来控制访问无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers. 请求头报文如下图所示这里面大部分的字段都是浏览器向服务器表面身份用的,对于爬虫来说,最需注意的字段就是Us...原创 2018-10-17 14:33:48 · 1169 阅读 · 0 评论 -
IP代理池设计(抓取,清洗)
目录 简述IP代理免费抓取IP代理清洗IP代理算法设计简述使用IP代理请求目标页面可以避免IP限流。以爬取淘宝商品信息背景为例,如果使用单个IP频繁的请求淘宝网站,就会被淘宝平台识别,返回的接口信息会报“请求被挤爆了....”现在淘宝PC端商品列表页为了抵御防爬措施,对频繁访问的IP要求重新登录,或者或跳转至一个带有滑块验证的页面,要求用户登录或拖动滑块。同时,...原创 2018-10-17 14:43:12 · 2050 阅读 · 0 评论 -
Spring Data Elasticsearch聚合搜索实战
准备环境1 安装Elasticsearch 5.5.2 (略)2 使用爬虫爬取厦门人才网相关招聘信息(略)通过elasticsearch-head插件可以看到我们已经爬取很多数据了3 在项目中整合spring-data-elasticsearch①引入依赖 <!--集成elasticSearch--> <depende...原创 2018-10-28 00:03:47 · 6220 阅读 · 0 评论