自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fiery_heart的博客

学习,进步

  • 博客(9)
  • 问答 (1)
  • 收藏
  • 关注

原创 scrapy的信号(signal)以及对下载中间件的一些总结

直接往redis里记录一下,我今天爬了多少数据 是否和我预期一样 爬虫状态码异常,你怎么查 我的爬虫没任务了它就会退出了,我不想它退出怎么办 爬虫关闭了,我不想看进程,我希望给我来个邮件 怎么办 我现在给你一批url让你去爬,完了,我待会再给你一批。时间不确定 你怎么办?以上,完美的阐述了scrapy信号的用途。首先,信号的一些基本概念就不说了,可以直接百度 : scra...

2018-08-31 00:07:46 3605

原创 scrapy-crawlspider爬取某新闻网站住房有关文章

首先创建项目,创建爬虫 scrapy startproject qianlongwang # 创建了一个项目在项目的根目录下,创建爬虫,一个项目可以有多个爬虫 scrapy genspider -t crawl fangchan xxxx.com # 创建了一个名为fangchan的爬虫,并指定了爬虫的活动范围第一步:明确需求也就是搞清楚自己想要什么数据,然后再...

2018-08-29 17:34:15 464

原创 xpath

选取div[@class=”author clearfix”]节点的同级节点的第一个a标签 div[@class=”author clearfix”]/following-sibling::a[1] 选取当前节点下所有文本内容 content = site.xpath(‘string(./div[@class=”content”]/span)’) 也可以参照这个http://www....

2018-08-29 03:03:59 310

原创 logging模块的使用

import logging# 创建loggerlogger = logging.getLogger()logger.setLevel(logging.INFO)# 创建handler,这个handler是输出到文件用的handler = logging.FileHandler('tieba_async_mysql.log',encoding='utf-8')# 为handler设置一...

2018-08-28 18:30:29 215

原创 协程爬取贴吧里发帖内容(redis做任务队列,mongo存储)

是用redis做任务队列时,要思考: 用什么数据类型来做任务队列 怎样才能防止重复爬取 首先了解一下redis可以存储什么数据类型: 字符串String 哈希hash 列表list 集合set 有序集合zset 浏览完这几种数据类型的功能之后,决定用list来做任务队列,用set来解决思考的问题,就是防止重复爬取的问题。 大概思...

2018-08-28 01:13:54 419

原创 多线程爬取一点资讯

首先观察网站,明确爬取目标经过观察,发现这个网站的数据都是异步加载的,而我此次爬取的目标,是一点资讯-段子模块下的内容分析目标站点既然是异步加载的,就可以在控制台的 Network标签下的xhr里面可以看到,异步请求的地址。如下 还有可以看到请求的参数 尝试请求数据有了请求地址,有了请求所需的参数,肯定会先试验一波。 经过试验,发现这个地址是正确的,会返回json数据...

2018-08-24 21:37:18 1868 5

原创 安装anadonda里没有的包

在需要用python调用js代码的时候,发现没有所需要的包:pyexecjs 当我用 coanda install pyexecjs 这个命令安装的时候,安装不上。 解决方法: - 打开anaconda的 Anaconda Prompt(anaconda的命令行) - 在命令行中输入 pip install pyexecjs(conda install pyexecjs 也行) -...

2018-08-23 16:28:14 2405

原创 一个简单的基于async/aiohttp的爬虫

import asyncioimport aiohttpfrom lxml import etreeimport queueurlQ = queue.Queue()f = open("title22.txt", "w",encoding='utf-8')async def get_html(url): ck = """Hm_lvt_dbc355aef238b6

2018-08-21 22:09:18 1470

原创 python3多线程爬虫(初级)

多线程爬虫,主要是玩队列,队列玩明白了,多线程自然也就起来了。#导入各种包import threadingimport queueimpot jsonfrom lxml import ertee定义爬取类,需要继承多线程:class down_spider(Threading.Thread): def __intit__(self,urlQ,dataQ): ...

2018-08-03 10:08:08 6082 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除