爬虫
风少年~
这个作者很懒,什么都没留下…
展开
-
Httpclient4.5写爬虫之发送云南电信短信验证码失败问题
遇见问题: 在开发爬虫过程中,遇见在发送云南电信短信验证码时,返回的报文中只有而无相应的xml情况。绞尽脑汁没想明白,通用的代码怎么到这里行不通了呢。在怀疑完人生后,还是要冷静下来仔细分析的。绕地球走了一圈的弯路,最后搞定,简直想吐血。解决方案:在HttpPost里添加Referer即可。原 因:在开发web程序的时候,有时我们需要 得到用户是从什么页面原创 2017-07-11 15:58:00 · 895 阅读 · 0 评论 -
log4j2 个性化日志名
目的: 利用log4j2进行请求中的手机号码的收集,并将收集到的日志文件存放在共享磁盘里。问题: 由于多台服务器写日志,那么就需要给每台服务器打印的日志文件加个前缀名,以免冲突。解决方案: 参考:http://logging.apache.org/log4j/2.0/manual/lookups.html#SystemPropertiesLoo原创 2017-10-27 14:43:09 · 1133 阅读 · 2 评论 -
at org.apache.http.util.EntityUtils.toString(EntityUtils.java:244) 线程卡死
简述: 最近遇见做爬虫遇见一个诡异的问题,爬虫的处理流程滞留在一个阶段不忘下执行了。导致出现大量介于爬取开始和爬取结束中间状态停留,从而客户客户天天揪着我问这问那,什么问题又什么时候解决。麻烦的要死,有没有…… 诡异的问题之所以称之为诡异,就是因为他让你摸不到头脑。没有异常也没有日志,线程就在那里杳无音讯了,接着查线程ID,好家伙后面也没有原创 2017-09-28 12:58:51 · 4592 阅读 · 3 评论 -
爬虫涉及若干问题
爬虫涉及若干问题V1.0 页面数据:1. 特定数据2. 结构型数据3. 不规则数据4. 待挖掘数据5. 无价值数据请求分类:1. 模式请求2. 样例请求3. 指定请求反爬:1. User-Agent2. Referer3原创 2017-09-05 20:42:31 · 657 阅读 · 0 评论 -
爬虫 IP代理策略
简介 写爬虫,最终还是逃避不了和IP代理打交道。从网上找了好多家IP代理,如表序号服务商星级判定评论套餐ip有效期详情1阿布云下个月咨询20分钟的就阿布云那得性,死贵我也不说啥,请求10次9次超时搞基吧,问个问题100次1次都不回复,骗子公司就别干这个了,就这样 也就骗一次,口碑还能做下去吗?专业版499原创 2017-08-22 11:33:16 · 517 阅读 · 0 评论 -
httpclient4.5 结合 讯代理 实现IP代理
遇见问题 嘘嘘,不要让太多的人知道!!!! 代理ip是爬虫工资必要的消费,那么如何很好的利用各家服务商提供的免费代理IP呢?使用方案 讲解一下,就是在爬取之前先到各家服务商哪里爬取最新的可利用代理IP,然后放在ip池里,然后再去爬取目标网站。如此以来,维护好这个ip池,就可以源源不断的接收新的可以使用的原创 2017-08-11 16:30:07 · 1352 阅读 · 0 评论 -
校验移动手机号
function validateMobileNum(str){ if(str==""){ return false; } //var myReg = /^(134|135|136|137|138|139|153|158|159|150|151|152|157|188|147|187)\d{8}$/; var myReg = /^\d{11}$/; //不做号段校验 if(myReg原创 2017-08-17 13:56:34 · 272 阅读 · 0 评论 -
session和cookie作用原理,区别
Cookie概念 在浏览某些 网站 时,这些网站会把 一些数据存在 客户端 , 用于使用网站 等跟踪用户,实现用户自定义 功能. 是否设置过期时间: 如果不设置 过期时间,则表示这个 Cookie生命周期为 浏览器会话期间 , 只要关闭浏览器,cookie就消失了. 这个生命期为浏览会话转载 2017-08-10 10:43:40 · 229 阅读 · 0 评论 -
Http Cookie机制及Cookie的实现原理
Cookie是进行网站用户身份,实现服务端Session会话持久化的一种非常好方式。Cookie最早由Netscape公司开发,现在由 IETF 的RFC 6265标准备对其规范,已被所有主流浏览器所支持。1. 为什么需要Cookie?HTTP是一种无状态的协议,客户端与服务器建立连接并传输数据,数据传输完成后,连接就会关闭。再次交互数据需要建立新的连接,因此,服务器无法从连接上跟踪会转载 2017-08-10 10:12:05 · 1222 阅读 · 0 评论 -
Certificates does not conform to algorithm constraints
遇见问题 在爬取北京移动网厅时,遇见问题:SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]javax.net.ssl.SSLH原创 2017-08-01 20:28:35 · 1308 阅读 · 0 评论 -
Httpclient写爬虫
第1部分 了解爬虫1.1 什么事爬虫简单通俗的理解,就是通过Http请求模拟用户在浏览器操作行为的代码。1.2 爬虫能做什么常用于抓数据,通过一些列的http请求,将别人网站的内容抓到自己的数据库中。1.3 爬虫的应用场景刚使用,大家去别地找一找吧。第2部分 基础知识准备第2部分 2.1原创 2017-07-05 18:33:29 · 461 阅读 · 0 评论 -
爬虫之云南电信抓不到详单问题
遇见问题:爬虫之云南电信抓不到详单,百思不得其解。问题原因:在验证前后各访问了一次http://yn.189.cn/service/jt/bill/actionjt/ifr_bill_detailslist_new.jsp,然后两次获得的页面数据一致,但是参数不同。验证前:验证后:改过之后就好了,此刻 好心塞。。。原创 2017-07-14 10:31:59 · 796 阅读 · 2 评论 -
爬取青海电信详单随机码错误问题
遇见问题:在爬取青海电信详单时,遇见问题短信验证码一直报错问题。如图:于是问客服: 最后只能说一句,算你狠,不爬了!!!!!!!原创 2017-07-13 11:06:50 · 606 阅读 · 0 评论 -
解决爬虫登陆电信密码加密问题
爬虫抓取电信原创 2017-06-23 19:21:48 · 1282 阅读 · 2 评论 -
三网号码段区分
联通:[130, 131, 132, 145, 155, 156, 170, 171, 175, 176, 185, 186]电信:[133, 149, 153, 170, 173, 177, 180, 181, 189]移动:[134, 135, 136, 137, 138, 139, 147, 150, 151, 152, 157, 158, 159, 170, 172原创 2017-10-13 17:22:29 · 9254 阅读 · 0 评论