2018年08月_fiery_heart

12月 11月 10月 09月 08月 07月 06月 03月 01月

原创 scrapy的信号（signal）以及对下载中间件的一些总结

直接往redis里记录一下，我今天爬了多少数据是否和我预期一样爬虫状态码异常，你怎么查我的爬虫没任务了它就会退出了，我不想它退出怎么办爬虫关闭了，我不想看进程，我希望给我来个邮件怎么办我现在给你一批url让你去爬，完了，我待会再给你一批。时间不确定你怎么办？以上，完美的阐述了scrapy信号的用途。首先，信号的一些基本概念就不说了，可以直接百度： scra...

2018-08-31 00:07:46 3605

原创 scrapy-crawlspider爬取某新闻网站住房有关文章

首先创建项目，创建爬虫 scrapy startproject qianlongwang # 创建了一个项目在项目的根目录下，创建爬虫，一个项目可以有多个爬虫 scrapy genspider -t crawl fangchan xxxx.com # 创建了一个名为fangchan的爬虫，并指定了爬虫的活动范围第一步：明确需求也就是搞清楚自己想要什么数据，然后再...

2018-08-29 17:34:15 464

原创 xpath

选取div[@class=”author clearfix”]节点的同级节点的第一个a标签 div[@class=”author clearfix”]/following-sibling::a[1] 选取当前节点下所有文本内容 content = site.xpath(‘string(./div[@class=”content”]/span)’) 也可以参照这个http://www....

2018-08-29 03:03:59 310

原创 logging模块的使用

import logging# 创建loggerlogger = logging.getLogger()logger.setLevel(logging.INFO)# 创建handler，这个handler是输出到文件用的handler = logging.FileHandler('tieba_async_mysql.log',encoding='utf-8')# 为handler设置一...

2018-08-28 18:30:29 215

原创协程爬取贴吧里发帖内容（redis做任务队列，mongo存储）

是用redis做任务队列时，要思考：用什么数据类型来做任务队列怎样才能防止重复爬取首先了解一下redis可以存储什么数据类型：字符串String 哈希hash 列表list 集合set 有序集合zset 浏览完这几种数据类型的功能之后，决定用list来做任务队列，用set来解决思考的问题，就是防止重复爬取的问题。大概思...

2018-08-28 01:13:54 419

原创多线程爬取一点资讯

首先观察网站，明确爬取目标经过观察，发现这个网站的数据都是异步加载的，而我此次爬取的目标，是一点资讯-段子模块下的内容分析目标站点既然是异步加载的，就可以在控制台的 Network标签下的xhr里面可以看到，异步请求的地址。如下还有可以看到请求的参数尝试请求数据有了请求地址，有了请求所需的参数，肯定会先试验一波。经过试验，发现这个地址是正确的，会返回json数据...

2018-08-24 21:37:18 1868 5

原创安装anadonda里没有的包

在需要用python调用js代码的时候，发现没有所需要的包：pyexecjs 当我用 coanda install pyexecjs 这个命令安装的时候，安装不上。解决方法： - 打开anaconda的 Anaconda Prompt（anaconda的命令行） - 在命令行中输入 pip install pyexecjs（conda install pyexecjs 也行） -...

2018-08-23 16:28:14 2405

原创一个简单的基于async/aiohttp的爬虫

import asyncioimport aiohttpfrom lxml import etreeimport queueurlQ = queue.Queue()f = open("title22.txt", "w",encoding='utf-8')async def get_html(url): ck = """Hm_lvt_dbc355aef238b6

2018-08-21 22:09:18 1470

原创 python3多线程爬虫（初级）

多线程爬虫，主要是玩队列，队列玩明白了，多线程自然也就起来了。#导入各种包import threadingimport queueimpot jsonfrom lxml import ertee定义爬取类，需要继承多线程:class down_spider(Threading.Thread): def __intit__(self,urlQ,dataQ): ...

2018-08-03 10:08:08 6082 4

空空如也

树莓派4上使用ffmpeg实现的网络摄像头，当出现动态画面时候很不清晰，请问该怎么解决？

2019-11-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人