自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Voccoo的博客

做好没有女朋友的准备了吗?

  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy中Post不成功的解决办法

有时候在爬取数据分析目标网站的过成功,会发现F12中,请求的数据类型为post,发送的数据位FormData,可是自己已经按照post请求的FormRequest做了请求,data数据也按照F12中的格式填写完毕了。但请求的结果要不就请求不到,一直堵塞着,要不就是无论换成多少页数,返回的数据都是第一页的数据。当有这种情况的时候,只需要一步验证就能解决。那就是用postman或者在浏览器中直接...

2018-10-26 10:46:47 1971 1

原创 scrapy中Request请求使用Request payload参数 json或text

今天做爬虫,又被payload的参数坑了一次,还是要记录下,否则下次还是容易忘。如下图所示,在这个请求中,payload中有个参数在F12中有个‘str’=null的参数,在大家需要写的时候,如果真的在dict中也这么写,很容易会出现问题的。要不返回400,要不没有数据。那么在这里详细的说下在scrapy中payload参数的构成方式。首先要明确下:1、在F12中虽然提示的是post请求,...

2018-10-24 10:06:18 4349 1

原创 scrapy_splash动态ip代理和请求头的动态修改

在使用过程中,不可以常规的scrapy使用习惯来进行splash的ip代理替换和请求头的替换。经过我的测试,直接在SplashRequest中进行二者替换都是会使程得到错误的返回结果。经过我的使用确保正确的ip代理替换方式有两种:1.脚本里ip替换:splash:on_request(function(request)request:set_proxy{host = “112.195....

2018-10-23 11:28:38 3286 1

原创 python scrapy.Request传递给parse参数的方法

爬虫在使用中,难免会遇到需要将在start_request中的某个关键在,传给parse,然后通过item存入数据库中,那么怎么才能呢?如上图,在callback中,使用lambda函数例子:callback=lambda response,port=1,port_2=2: self.parse(response,port,port_2)def parse(self,response,po...

2018-10-15 15:12:27 3880

kafka初尝试.7z

适用于windows下python环境,kafka-python操作的kafka环境。 kafka和zookeeper已经在里面了。 修改下启动的bat路径即可,我在里面写的是绝对路径,打击可以修改下 实例demo也已经存在了。更多功能,大家可以继续扩展。

2019-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除