sinat_28680819-CSDN博客

原创 Flume 以twitter为source，kafka为channel，hdfs为sink，再用spark streaming 读kafka topic

Flume kafka为channel，hdfs为sink，spark streaming

2017-08-03 18:09:15 866

原创 scrapy User Agent切换的两种方法

第一种是使用在setting里面设置middlewares。这个网上有较多版本，我觉得这个版本写的比较好，也比较新。有的旧版本还在使用scrapy.contrib.downloadermiddleware。scrapy新的版本里已经不用contrib了，直接写scrapy.downloadermiddleware就可以了。note:另外为了避免覆盖本身的middlewares.py

2017-05-10 21:00:58 842

原创 scrapy post request 和response方法

接上篇是在requests module里post request这里scrapy自己有request方法，一般的就用request方法就可以，post方法要用form request,例子:url="http://english.ctrip.com/chinaflights/ListPartial/GetRefundEndorseV2"payload = {'item':reinfo

2017-05-02 20:43:21 1296

原创 Python Requests post并将得到结果转换为json

编程小白一个，目前在学习python 爬虫。之前看到一个博主说些博客对于程序员来说挺重要的，没怎么在意。今天觉得面对一个问题好不容易找到解决方案，是应该记录一下。说不定还有人来讨论讨论，哈哈！之前开始接触用scrapy批量抓取网页，一直很怕面对要调用JS的内容，因为对JS和http request完全不懂，这次遇到一个小地方需要分析url请求，只能硬着头皮上了，东查查西问问的。遇到问题不能

2017-04-28 20:01:54 93300 5

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人