自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 关于scrapy有用的链接

如何让不同的spider使用不同的pipeline:http://stackoverflow.com/questions/8372703/how-can-i-use-different-pipelines-for-different-spiders-in-a-single-scrapy-proje

2016-06-27 08:26:46 442

原创 :在scrapy的callback中使用lambda小结

用lambda定义函数 的用法其实很简单: lambda [参数部分]  : [函数部分]1先举一个简单的例子func = lambda x,y : x+y如果定义了这个函数之后我们执行这行命令func(3,5)那么显而易见结果是8。如果我们在定义时给参数缺省值,比如func = lambda x=3,y=5: x+y那么调用func

2016-06-27 04:33:54 5292

原创 用Scrapy抓取Yahoo! WOEID

Yahoo! WOEID (Where On Earth Identifier) 是Yahoo的一套用于识别地球上不同地址的编号系统。许多网站,包括Twitter都用woeid来识别位置信息。本文主题就是利用scrapy从网上抓取给定国家的woeid我将要抓取的网站是http://woeid.rosselliot.co.nz/,我们可以在这个网页输入想要查找的地名,可以是国家名,城市名

2016-06-23 21:44:36 2463 1

翻译 【翻译】Tweepy 3.5.0 Doc (3) Code Snippets

实用代码片段简介下面是一些在使用Tweepy或许对你有用的代码片段。OAuthauth = tweepy.OAuthHandler("consumer_key", "consumer_secret")# Redirect user to Twitter to authorizeredirect_user(auth.get_authorization_url()

2016-06-18 04:16:32 696

翻译 【翻译】Tweepy 3.5.0 Doc (2) Authentication Tutorial

Authentication Tutorial简介Tweepy支持 oauth认证。Tweepy中的身份认证由 tweepy.AuthHandler 类进行处理。OAuth 身份认证Tweepy尽可能试着简化OAuth认证。首先我们需要在Twitter注册一个客户端应用。当创建完成之后你应该能获得你的consumer token 和 consumer secret。将这两个

2016-06-17 22:00:49 759

翻译 【翻译】Tweepy 3.5.0 Doc (6) Streaming With Tweepy

Streaming With TweepyTweepy是的处理twitter流api的授权,连接,创建/删除会话,读取信息以及处理路由信息(?partially routing messagaes)都变得更轻松。此教程旨在帮助你踏出用Tweepy使用Twitter流的第一步。Tweepy流的某些特征没有包括在此教程内,请查看Tweepy的相关源码streaming.py来获取更多信息。

2016-06-17 20:51:03 1962

翻译 【翻译】Tweepy 3.5.0 Doc (4) Cursor Tutorial

Cursor教程此教程详细阐述了如何用Cursor对象进行与分页有关的操作。简介分页在 Twitter API 的开发中有着广泛的运用,如对时间线,用户列表,私信的迭代等等。为了实现分页的操作,我们必须为每一个request提供一个页面/指针(page/cursor)参数。但是单为了处理分页的循环实际上就需要很多样板代码(boiler plate code),所以Tweepy中

2016-06-17 19:43:00 2085

翻译 【翻译】Tweepy 3.5.0 Doc (5) API Reference

API Reference这篇文章涵盖了Tweepy模块一些基本的文档。tweepy.api -- Twitter API 的封装(wrapper)class API([auth_handler=None][, host='api.twitter.com'][, search_host='search.twitter.com'][, cache=None][, api_root='/1

2016-06-16 05:27:56 1809

翻译 【翻译】Tweepy 3.5.0 Doc (1) Getting started

开始简介如果你是第一次接触Tweepy,就请从这里开始。这个教程的目标是提供你学习Tweepy所需的信息,让你学习完本教程后能熟练使用Tweepy。我们在这主要谈论重要的基础内容,而不会涉及太多细节,你好 Tweepyimport tweepyauth = tweepy.OAuthHandler(consumer_key, consumer_secret)auth.s

2016-06-16 04:24:14 1810

原创 Tweepy抓取twitter数据 1

之前一直想用爬虫登陆并抓取twitter数据,试过scrapy,requests等包,都没成功,可能是我还不太熟悉的原因,不过今天发现了一个新包tweepy,专门用于在python中处理twitter API。先尝试一下教程的第一个例子,经过了自己的一点修改代码如下:__author__ = 'xyz'import reimport tweepyauth = tweepy.O

2016-06-15 21:29:58 10896

原创 用BeautifulSoup,urllib,requests写twitter爬虫(1)

在github上找到了一个twitter的爬虫,试了下,修改了其中一个有关编码的问题,可以抓取一定数量的twitterhttps://gist.github.com/TVFlash/cccc2808cdd9a04db1ce代码如下from bs4 import BeautifulSoup, NavigableStringfrom urllib2 import urlopen#No

2016-06-15 03:07:35 3539

原创 编码问题:UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:

在写一个用BeautifulSoup抓取twitter网页时遇到的问题# UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:# illegal multibyte sequence在网上找了一篇解决类似问题的文章(http://www.crifan.com/unicod

2016-06-14 22:15:16 16927 9

原创 初试scrapy编写twitter爬虫

第一步要做的当然是生成一个新projectscrapy startproject twitterProject我计划用这个爬虫做的第一件事就是抓取twitter上希拉里的推文以及她的关注。所以新建一个spiderscrapy genspider hillary https://twitter.com/HillaryClinton本文首先参考 https://github.com

2016-06-09 21:42:37 11009

原创 scrapy提取wikipedia实践1

1.新建Project首先创建一个新的project,在cmd下执行以下命令scrapy startproject wiki得到一个新的project2.新建spider文件现在新建一个spider来抓取wikipedia英文主页上的内容。使用以下命令新建一个spider文件scrapy genspider main en.wikipedia.org然后在编译器里打开在

2016-06-03 19:36:24 1633

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除