爬虫
文章平均质量分 85
尽拣寒枝不肯栖
这个作者很懒,什么都没留下…
展开
-
scrapy webmagic
最近要试图去爬新浪微博上的部分数据(还不知道新浪微博有没有封爬虫)。1.开始使用了webmagic,官网上的源代码是maven开发的,我电脑maven没有下载库,搞了一天出了各种问题,就罢了。2.然后改用scrapy,现在还在尝试,试了一个爬豆瓣的代码,发现豆瓣好像也ban了爬虫,不过不确定,先找个其他网站试试:米胖。先讲一下scrapy使用,安装好了,创建框架:scrapy st原创 2016-08-11 16:44:34 · 1644 阅读 · 0 评论 -
scrapy笔记(3)-微博模拟登录及抓取微博内容
参考阅读基于python的新浪微博模拟登陆Python模拟登录新浪微薄(使用RSA加密方式和Cookies文件新浪微博登录rsa加密方法模拟登录新浪微博(直接填入Cookie)模拟登录新浪微博(Python)1. 事前准备阅读上篇scrapy笔记(2)下载Fiddler并掌握其基本用法阅读urllib2文档下载本文我的源码2. 微博登录分析2.1 截转载 2016-08-11 21:46:36 · 2757 阅读 · 0 评论 -
scrapy笔记(2) - 小试牛刀 (抓取豆瓣推理小说信息)
1. 事前准备:阅读scrapy官方文档至少一次了解scrapy的基本命令及弄懂scrapy文档中例子的项目结构等基本信息下文将假设大家已经有了以上准备, 对一些细节不会详细阐述, 如有不懂可以先翻翻文档或留言询问下载本例子源码(文章末尾)2. 豆瓣页面分析我们准备'下手'的是豆瓣推理小说的数据,截图如下小说数据目前(2015-4-16)豆瓣共有629页的推转载 2016-08-11 23:05:50 · 838 阅读 · 0 评论 -
robots.txt
一、robots.txt是什么? robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索引擎(又称搜索机器人或蜘蛛程序)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接转载 2016-08-14 11:09:18 · 385 阅读 · 0 评论 -
sina vistor system
0x00 前言一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规手段如验证码、封IP等等相信很多人都见识过……当然确实有需要的话可以通过新浪开放平台提供的API进行数据采集,但是普通开发者的权限比较低,限制也比较多。所以如果只是做一些简单的功能还是爬虫比较方便~应该是今年的早些时候,新浪引入了一个Sina Visitor System(新转载 2016-09-05 21:38:25 · 2750 阅读 · 0 评论 -
爬虫
CSDN移动将持续为您优选移动开发的精华内容,共同探讨移动开发的技术热点话题,涵盖移动应用、开发工具、移动游戏及引擎、智能硬件、物联网等方方面面。如果您想投稿、寻求《近匠》报道,或给文章挑错,欢迎发送邮件至tangxy#csdn.net(请把#改成@)。 关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是:我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的...转载 2016-10-25 09:16:54 · 674 阅读 · 1 评论