2016年06月_Iam-xyZ

原创关于scrapy有用的链接

如何让不同的spider使用不同的pipeline：http://stackoverflow.com/questions/8372703/how-can-i-use-different-pipelines-for-different-spiders-in-a-single-scrapy-proje

2016-06-27 08:26:46 442

原创 :在scrapy的callback中使用lambda小结

用lambda定义函数的用法其实很简单： lambda [参数部分] : [函数部分]1先举一个简单的例子func = lambda x,y : x+y如果定义了这个函数之后我们执行这行命令func(3,5)那么显而易见结果是8。如果我们在定义时给参数缺省值，比如func = lambda x=3,y=5: x+y那么调用func

2016-06-27 04:33:54 5292

原创用Scrapy抓取Yahoo! WOEID

Yahoo! WOEID (Where On Earth Identifier) 是Yahoo的一套用于识别地球上不同地址的编号系统。许多网站，包括Twitter都用woeid来识别位置信息。本文主题就是利用scrapy从网上抓取给定国家的woeid我将要抓取的网站是http://woeid.rosselliot.co.nz/，我们可以在这个网页输入想要查找的地名，可以是国家名，城市名

2016-06-23 21:44:36 2463 1

翻译【翻译】Tweepy 3.5.0 Doc (3) Code Snippets

实用代码片段简介下面是一些在使用Tweepy或许对你有用的代码片段。OAuthauth = tweepy.OAuthHandler("consumer_key", "consumer_secret")# Redirect user to Twitter to authorizeredirect_user(auth.get_authorization_url()

2016-06-18 04:16:32 696

翻译【翻译】Tweepy 3.5.0 Doc (2) Authentication Tutorial

Authentication Tutorial简介Tweepy支持 oauth认证。Tweepy中的身份认证由 tweepy.AuthHandler 类进行处理。OAuth 身份认证Tweepy尽可能试着简化OAuth认证。首先我们需要在Twitter注册一个客户端应用。当创建完成之后你应该能获得你的consumer token 和 consumer secret。将这两个

2016-06-17 22:00:49 759

翻译【翻译】Tweepy 3.5.0 Doc (6) Streaming With Tweepy

Streaming With TweepyTweepy是的处理twitter流api的授权，连接，创建/删除会话，读取信息以及处理路由信息(？partially routing messagaes)都变得更轻松。此教程旨在帮助你踏出用Tweepy使用Twitter流的第一步。Tweepy流的某些特征没有包括在此教程内，请查看Tweepy的相关源码streaming.py来获取更多信息。

2016-06-17 20:51:03 1962

翻译【翻译】Tweepy 3.5.0 Doc (4) Cursor Tutorial

Cursor教程此教程详细阐述了如何用Cursor对象进行与分页有关的操作。简介分页在 Twitter API 的开发中有着广泛的运用，如对时间线，用户列表，私信的迭代等等。为了实现分页的操作，我们必须为每一个request提供一个页面/指针(page/cursor)参数。但是单为了处理分页的循环实际上就需要很多样板代码(boiler plate code)，所以Tweepy中

2016-06-17 19:43:00 2085

翻译【翻译】Tweepy 3.5.0 Doc (5) API Reference

API Reference这篇文章涵盖了Tweepy模块一些基本的文档。tweepy.api -- Twitter API 的封装（wrapper）class API([auth_handler=None][, host='api.twitter.com'][, search_host='search.twitter.com'][, cache=None][, api_root='/1

2016-06-16 05:27:56 1809

翻译【翻译】Tweepy 3.5.0 Doc (1) Getting started

开始简介如果你是第一次接触Tweepy，就请从这里开始。这个教程的目标是提供你学习Tweepy所需的信息，让你学习完本教程后能熟练使用Tweepy。我们在这主要谈论重要的基础内容，而不会涉及太多细节，你好 Tweepyimport tweepyauth = tweepy.OAuthHandler(consumer_key, consumer_secret)auth.s

2016-06-16 04:24:14 1810

原创 Tweepy抓取twitter数据 1

之前一直想用爬虫登陆并抓取twitter数据，试过scrapy，requests等包，都没成功，可能是我还不太熟悉的原因，不过今天发现了一个新包tweepy，专门用于在python中处理twitter API。先尝试一下教程的第一个例子，经过了自己的一点修改代码如下：__author__ = 'xyz'import reimport tweepyauth = tweepy.O

2016-06-15 21:29:58 10896

原创用BeautifulSoup,urllib,requests写twitter爬虫(1)

在github上找到了一个twitter的爬虫，试了下，修改了其中一个有关编码的问题，可以抓取一定数量的twitterhttps://gist.github.com/TVFlash/cccc2808cdd9a04db1ce代码如下from bs4 import BeautifulSoup, NavigableStringfrom urllib2 import urlopen#No

2016-06-15 03:07:35 3539

原创编码问题：UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:

在写一个用BeautifulSoup抓取twitter网页时遇到的问题# UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:# illegal multibyte sequence在网上找了一篇解决类似问题的文章（http://www.crifan.com/unicod

2016-06-14 22:15:16 16927 9

原创初试scrapy编写twitter爬虫

第一步要做的当然是生成一个新projectscrapy startproject twitterProject我计划用这个爬虫做的第一件事就是抓取twitter上希拉里的推文以及她的关注。所以新建一个spiderscrapy genspider hillary https://twitter.com/HillaryClinton本文首先参考 https://github.com

2016-06-09 21:42:37 11009

原创 scrapy提取wikipedia实践1

1.新建Project首先创建一个新的project，在cmd下执行以下命令scrapy startproject wiki得到一个新的project2.新建spider文件现在新建一个spider来抓取wikipedia英文主页上的内容。使用以下命令新建一个spider文件scrapy genspider main en.wikipedia.org然后在编译器里打开在

2016-06-03 19:36:24 1633

Xiaoyi_Zhang的博客