自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Flume 以twitter为source,kafka为channel,hdfs为sink,再用spark streaming 读kafka topic

Flume kafka为channel,hdfs为sink,spark streaming

2017-08-03 18:09:15 805

原创 scrapy User Agent切换的两种方法

第一种是使用在setting里面设置middlewares。这个网上有较多版本,我觉得这个版本写的比较好,也比较新。有的旧版本还在使用scrapy.contrib.downloadermiddleware。scrapy新的版本里已经不用contrib了,直接写scrapy.downloadermiddleware就可以了。note:另外为了避免覆盖本身的middlewares.py

2017-05-10 21:00:58 738

原创 scrapy post request 和response方法

接上篇是在requests module里post request这里scrapy自己有request方法,一般的就用request方法就可以,post方法要用form request,例子:url="http://english.ctrip.com/chinaflights/ListPartial/GetRefundEndorseV2"payload = {'item':reinfo

2017-05-02 20:43:21 1239

原创 Python Requests post并将得到结果转换为json

编程小白一个,目前在学习python 爬虫。之前看到一个博主说些博客对于程序员来说挺重要的,没怎么在意。今天觉得面对一个问题好不容易找到解决方案,是应该记录一下。说不定还有人来讨论讨论,哈哈!之前开始接触用scrapy批量抓取网页,一直很怕面对要调用JS的内容,因为对JS和http request完全不懂,这次遇到一个小地方需要分析url请求,只能硬着头皮上了,东查查西问问的。遇到问题不能

2017-04-28 20:01:54 92686 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除