- 博客(10)
- 资源 (10)
- 收藏
- 关注
原创 scrapy学习之路(八)网页解析:BeautifulSoup
scrapy通过selenium获取到网页以后,为了获取数据,我们需要对网页进行解析,BeautifulSoup是一种比较好用的页面解析工具。(一) 安装beautifulsoup4 pip installbeautifulsoup4(二)在spider中解析网页: (1)引入模块: from bs4 import Beautiful...
2020-01-16 14:46:27 845
原创 scrapy学习之路(七)selenium获取网页中的图片或多媒体信息
方案是通过DesiredCapabilities设置prefs通过页面的加载日志来获取,依然在DownloaderMiddleware中实现:(1)webdriver设置perfs:prefs = {"profile.managed_default_content_settings.images": {2}}d = DesiredCapabilities.CHROME...
2020-01-15 11:30:55 581
原创 elasticsearch学习之路(一)docker单机安装elasticsearch
基本的命令为: docker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:7.5.1扩展:添加配置文件并且暴露数据:docker run -p 9200:9200 -p 9300:9300 -v /...
2020-01-14 13:54:46 170
原创 kafka学习之路(一)docker安装kafka
kafka依赖于zookeeper,所以安装kafka需要对应的安装zookeeper这里采用wurstmeister/kafka和wurstmeister/zookeeper这两个镜像。(1)下拉镜像:docker pull wurstmeister/zookeeper docker pull wurstmeister/kafka(2)基本的启动命令启动zoo...
2020-01-13 16:10:22 248
原创 scrapy学习之路(六)selenium 模拟下拉加载
很多网页,有下拉加载或者懒加载的功能,如何爬取这类网站呢?还是通过selenium模拟人工操作来实现,这里以下拉加载为例介绍,依然在DownloaderMiddleware中实现该功能,具体代码如下:在process_request方法中,判断是需要处理的页面以后,加入如下代码:driver = spider.driverdriver.get(request.url)time....
2020-01-10 15:36:40 1807 1
原创 scrapy学习之路(五)一种实现登陆爬取的方案:selenium
很多网站是需要登陆的,并且有自己的登录逻辑,通过selenium可以实现模拟网站登录以及事件的点击,是一种比较难拦截的爬虫方案。 先决条件: (1)首先需要引入selenium和requests类,在requirements.txt中加上这两个以后,在venv中执行pip install即可,一定要在venv中执行,否则可能报错。 (2)安装对应的chromedri...
2020-01-09 16:45:12 331
原创 scrapy学习之路(四)给scrapy一个爬取目标
运行环境和开发环境搭建好了,scrapy的基本运行流程也有了基本了解以后,我们会有个疑问?如何让schedule组件知道我需要爬取的网站的网址了?我们需做的是给scrapy一个爬取的目标。使用vscode打开创建的工程(工程创建方法:https://blog.csdn.net/huyongchao98/article/details/103909481不了解scrapy的同学,请从https...
2020-01-09 16:16:41 239
原创 scrapy学习之路(三)scrapy基本架构和代码结构
本文以https://blog.csdn.net/huyongchao98/article/details/103909153和https://mp.csdn.net/postedit/103909481为基础,讲解scrapy基本架构和代码结构,熟悉scapy工作的基本流程和原理。先看一下scrapy的基本架构图:各组件的作用:引擎(Scrapy)用来处理整个系统的数据流处理...
2020-01-09 15:50:54 545
原创 scrapy学习之路(二)开发环境搭建
本文以vscode为例,搭建scrapy开发环境。首先安装https://blog.csdn.net/huyongchao98/article/details/103909153需要搭建运行环境,并且创建出了自己的工程。使用vscode打开该工程,开始搭建vscode版本的scrapy开发环境。(1)安装python扩展。(2)安装yapf格式化工具。(3).vscode设置工...
2020-01-09 15:37:28 273
原创 scrapy学习之路(一)运行环境搭建
以mac os为例:(1)安装Python 3 下载https://www.python.org/downloads/release/python-364/安装即可 (2) 安装pip依赖 https://pypi.org/project/pip/#files下载安装即可。(3)为pip设置代理 pip install -i http...
2020-01-09 15:33:42 260
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人