Python:爬虫学习
喜欢海呀
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习:我的第一个爬虫—爬取贴吧感兴趣帖子的图片(大家都懂,哈哈)
喜欢逛贴吧的小伙伴,在看到帖子里边有自己想要的图片的时候(特别是多图的那种),如果一张一张的按“另存为”,浪费时间不说,还特别麻烦,所以福利来啦~ 由于本博客只是用来记录学习,所以没有写多少说明解释的文字描述,只是添加了必要的注释。 代码如下: ``` # -*- coding:utf-8 -*- from urllib import request import charde...原创 2017-09-26 11:32:10 · 1147 阅读 · 0 评论 -
python爬虫学习1
爬虫 爬虫概览 什么是爬虫 生活角度:spider-projection(爬虫程序) 互联网爬虫:一个程序,根据url爬取网页,获取有用信息 核心:爬取网页 + 解析数据 难点:爬虫与反爬虫之间的博弈 爬虫语言 php:多进程和多线程支持不好 java:python爬虫的主要竞争对手,但是代码量大,重构成本高,而爬虫需要经常修改,所以不适合 c/c++:学习成本比较...原创 2018-03-19 16:40:48 · 441 阅读 · 0 评论 -
scrapy爬取数据之后,如何存入mysql
pipelines.py文件中新建MySQLPipeline类: # 导入库 from scrapy.utils.project import get_project_settings import pymysql # 写入数据库 class MySQLPipeline(object): def connect_db(self): # 从settings.py文件中导入...原创 2018-03-29 17:48:06 · 1999 阅读 · 2 评论 -
scrapy分布式爬虫
scrapy_redis scrapy是一个通用的爬虫框架,但是不支持分布式,scrapy_redis是为了更方便的实现scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 scrapy_redis工作原理: 调度器将不再负责Url的调度,而是将url上传给scrapy_redis组件,由组件负责组织、去重 redis组件会通过指纹(key)来进行去重操作...原创 2018-03-29 20:31:45 · 1979 阅读 · 0 评论 -
scrapy中使用CrawlSpider,匹配不到urls
scrapy中使用CrawlSpider,匹配不到urls,并且报如下错误: [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.xinpianchang.com': <GET h 原因是allowed_domains设置的有问题,注释掉以后就可以了(或者修改为正确的域名)...原创 2018-03-30 17:13:09 · 1055 阅读 · 0 评论 -
scrapy爬取豆瓣电影
刚看了scrapy框架,就想写个小项目练练手,刚好最近的一个django项目缺少电影推荐的信息,自然就想到了去爬取豆瓣电影的数据,爬取的url是https://movie.douban.com/top250 新建项目命令: scrapy startproject doubanMovie 进入项目目录下,新建一个爬虫文件: scrapy genspider movie movie.d...原创 2018-03-27 22:30:13 · 1033 阅读 · 0 评论