排序:
默认
按更新时间
按访问量

从头学习爬虫(四十一)高阶篇----模拟js生成Hearder中X-Request-token、X-Request-ts

本文主要提供中间模拟生成Hearder中X-Request-token、X-Request-ts 前后通过postman模拟代替代码实现 一 需求 https://yc.yonyoucloud.com/cpu-fe-tender/dist/inquirydetail/index.html?i...

2018-11-05 17:38:25

阅读数:24

评论数:0

从头学习爬虫(四十)高阶篇----模拟js生成Cookie中__jsl_clearance来破解加速乐的反爬虫机制

本文主要提供中间模拟生成Cookie中__jsl_clearance字段来破解加速乐的反爬虫机制 前后通过postman模拟代替代码实现 一 需求 http://www.cyicai.com/information/applyForSubscription 需要爬取 二 分析请求 ...

2018-09-20 19:55:18

阅读数:318

评论数:0

优先级权重随机算法

主要用于计算代理ip池设计,实现概率选择优质代理ip,所以简单写了个优先级权重随机算法。 如果量大注意int 超限,默认20次 支持107374182个ip。 优先级权重对象类 public class IpWeight { private String address;//地址 p...

2018-08-01 11:27:09

阅读数:63

评论数:0

从头学习爬虫(三十九)进阶篇----手机APP抓包

Charles是一款非常实用的抓包工具。它通过电脑端代理,拦截网络请求和响应来实现数据包的抓取。支持http/https。安装Charles需要Java环境,在安装之前确保已有配置Java运行环境。然后到官网下载Charles并安装。破解的话,可以使用网友提供的工具: Charles 在线破解。设...

2018-07-16 10:47:39

阅读数:756

评论数:0

关于BigDecimal.ROUND_HALF_UP与ROUND_HALF_DOWN

由于ROUND_HALF_UP和ROUND_HALF_DOWN涉及到金额的区别然而翻了其他博客基本都是错的,所以概述下这个问题(实际可能遇不到)。一 基础知识ROUND_HALF_UP: 遇到.5的情况时往上近似,例: 1.5 ->;2ROUND_HALF_DOWN : 遇到...

2018-07-06 14:38:11

阅读数:149

评论数:0

Druid【线上问题】由防火墙导致的数据库空闲连接断开问题

转载自http://www.cnblogs.com/trust-freedom/p/6992952.html问题描述公司一个新项目上线,处于试运行阶段,这个项目虽然是外网可访问的,故部署在了DMZ区,但试运行阶段只给了公司内少部分员工地址和账号(其中包括一些领导),故访问量很小,但项目还是挺重要的...

2018-07-04 15:13:46

阅读数:449

评论数:0

学习正则

翻译:EnglishEspañolFrançais中文版日本語한국어TurkishGreekMagyarPolish什么是正则表达式?正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式.&am...

2018-07-03 10:11:34

阅读数:49

评论数:0

权重随机算法

主要用于计算代理ip池设计,实现概率选择优质代理ip,所以简单写了个权重随机算法。 如果量大注意int 超限,默认20次 支持107374182个ip。 权重对象类 public class IpWeight { private String address;//地址 private...

2018-07-02 09:36:39

阅读数:86

评论数:0

python selenium 使用cookies免登陆,与requests使用cookies免登陆的差别

原址:https://blog.csdn.net/qq_38282706/article/details/80639803要点:1.selenium的cookies是多个字典组成的list,而且有很多键值         2.selenium 想要添加cookies...

2018-06-26 14:48:16

阅读数:688

评论数:0

Java加密套件强度限制引起的SSL handshake_failure

此篇文章来源为http://xwiz.cn ,原作者邮箱JieChenCN@qq.com今天为客户解决了一个奇葩的SSL问题。通过Java代码使用HttpURLConnection去连接https系统时候总是报错handshake_failure。而使用浏览器访问一切正常。记录下诊断的过程。Htt...

2018-06-12 15:22:29

阅读数:758

评论数:0

从头学习爬虫(三十八)进阶篇----教务网课程表下载

教务网。。如有侵权删本文主要分析流程,实现教务网课程表下载。http://59.57.242.167/jwweb/ZNPK/KBFB_ClassSel.aspx1 页面分析 两个请求2 编写代码。发送get请求,获取img3 报错4 分析必须先post 再get实例化对象5 响应乱码6 解决乱码主...

2018-06-11 11:29:54

阅读数:308

评论数:0

从头学习爬虫(三十七)进阶篇----视频爬取

本文主要提供下载视频思路准备selenium+有需要第三方接口点击打开链接以抖音为例1抓包分析链接2加密转分享链接3扩展第三方接口下载无水印视频API接口https://api.amemv.com/aweme/v1/discover/search/?cursor=0&key...

2018-06-04 15:28:55

阅读数:1314

评论数:0

利用背景图片生成词云

aaaafrom wordcloud import WordCloud,ImageColorGenerator,STOPWORDS import jieba import matplotlib.pyplot as plt from PIL import Image import numpy as ...

2018-05-18 14:49:39

阅读数:1526

评论数:0

从头学习爬虫(三十六)进阶篇----Selenium高级进阶

引自:自上世纪末Kent Beck提出TDD(Test-Driven Development)开发理念以来,开发和测试的边界变的越来越模糊,从原本上下游的依赖关系,逐步演变成你中有我、我中有你的互赖关系,甚至很多公司设立了新的QE(Quality Engineer)职位。和传统的QA(Quali...

2018-05-17 18:09:42

阅读数:1029

评论数:0

从头学习爬虫(三十五)重构篇----WebMagic的坑

本文介绍WebMagic的一些用法以及用法。 一 ssl问题 老版本没有加支持协议github可能会遇到以下问题,更新最新版本或者使用以下解决方案 绕过ssl时,没有支持版本(maven 0.7.3还是老的 还是有错的 建议去github clone)  javax.net.ssl.SSL...

2018-05-13 16:13:49

阅读数:2600

评论数:1

爬虫代理哪家强?十大付费代理详细对比评测出炉!

原文地址:https://cuiqingcai.com/5094.html侵权自动删除前言随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。对于爬虫来说,为了解决封禁 IP 的问...

2018-05-11 16:45:11

阅读数:2362

评论数:0

从头学习爬虫(三十四)实战篇----动漫之家漫画(Scrapy实战)

本文主要由于改造Scrapy下载中间件拖了比较久,安装模块自行解决。一 创建项目创建项目:CMD进入你需要放置项目的目录 输入:scrapy startproject XXXXX             XXXXX代表你项目的名字二 导入IDE由于IDE不一样这边自行解决结构如上三 IDE配置可...

2018-05-11 16:32:36

阅读数:3281

评论数:0

从头学习爬虫(三十三)实战篇----那些年的坑

本文主要介绍下一直以来在爬虫中的那些坑一 jsoup、html格式上次虎扑出现的坑请求里面我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到而我用div[@class=piclist3']/table/tbody/tr/td/a  居然拿到了浏览器里...

2018-05-06 00:20:40

阅读数:2196

评论数:0

从头学习爬虫(三十二)实战篇----动漫之家漫画(Python实现)

本文主要用python实现动漫之家的爬取如果有安装模块疑问请自行百度,有代码格式问题,也可以在下方回复分为两部分跟java那部分一样分为无框架和scrapy框架实现,步骤和实现原理都是一样的可以参考前篇代码不再详细注释无框架from selenium import webdriver from ...

2018-05-06 00:19:46

阅读数:2950

评论数:0

从头学习爬虫(三十一)实战篇----动漫之家漫画(Java实现)

本文主要用Java selenium实现点击打开漫画 如果有selenium配置问题请前往从头学习爬虫(十)进阶篇----selenium回顾 未使用框架 import java.io.BufferedInputStream; import java.io.BufferedOutputSt...

2018-05-04 16:12:15

阅读数:2861

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭