2020年01月_huyongchao98

12月 11月 02月 01月

原创 scrapy学习之路（八）网页解析:BeautifulSoup

scrapy通过selenium获取到网页以后，为了获取数据，我们需要对网页进行解析，BeautifulSoup是一种比较好用的页面解析工具。(一) 安装beautifulsoup4 pip installbeautifulsoup4(二)在spider中解析网页：（1）引入模块： from bs4 import Beautiful...

2020-01-16 14:46:27 845

原创 scrapy学习之路（七）selenium获取网页中的图片或多媒体信息

方案是通过DesiredCapabilities设置prefs通过页面的加载日志来获取，依然在DownloaderMiddleware中实现：（1）webdriver设置perfs:prefs = {"profile.managed_default_content_settings.images": {2}}d = DesiredCapabilities.CHROME...

2020-01-15 11:30:55 581

原创 elasticsearch学习之路（一）docker单机安装elasticsearch

基本的命令为： docker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:7.5.1扩展：添加配置文件并且暴露数据：docker run -p 9200:9200 -p 9300:9300 -v /...

2020-01-14 13:54:46 170

原创 kafka学习之路（一）docker安装kafka

kafka依赖于zookeeper，所以安装kafka需要对应的安装zookeeper这里采用wurstmeister/kafka和wurstmeister/zookeeper这两个镜像。（1）下拉镜像：docker pull wurstmeister/zookeeper docker pull wurstmeister/kafka（2）基本的启动命令启动zoo...

2020-01-13 16:10:22 248

原创 scrapy学习之路（六）selenium 模拟下拉加载

很多网页，有下拉加载或者懒加载的功能，如何爬取这类网站呢？还是通过selenium模拟人工操作来实现，这里以下拉加载为例介绍，依然在DownloaderMiddleware中实现该功能，具体代码如下：在process_request方法中，判断是需要处理的页面以后，加入如下代码：driver = spider.driverdriver.get(request.url)time....

2020-01-10 15:36:40 1807 1

原创 scrapy学习之路（五）一种实现登陆爬取的方案：selenium

很多网站是需要登陆的，并且有自己的登录逻辑，通过selenium可以实现模拟网站登录以及事件的点击，是一种比较难拦截的爬虫方案。先决条件：（1）首先需要引入selenium和requests类，在requirements.txt中加上这两个以后，在venv中执行pip install即可，一定要在venv中执行，否则可能报错。（2）安装对应的chromedri...

2020-01-09 16:45:12 331

运行环境和开发环境搭建好了，scrapy的基本运行流程也有了基本了解以后，我们会有个疑问？如何让schedule组件知道我需要爬取的网站的网址了？我们需做的是给scrapy一个爬取的目标。使用vscode打开创建的工程（工程创建方法：https://blog.csdn.net/huyongchao98/article/details/103909481不了解scrapy的同学，请从https...

2020-01-09 16:16:41 239

原创 scrapy学习之路（三）scrapy基本架构和代码结构

本文以https://blog.csdn.net/huyongchao98/article/details/103909153和https://mp.csdn.net/postedit/103909481为基础，讲解scrapy基本架构和代码结构，熟悉scapy工作的基本流程和原理。先看一下scrapy的基本架构图：各组件的作用：引擎(Scrapy)用来处理整个系统的数据流处理...

2020-01-09 15:50:54 545

原创 scrapy学习之路（二）开发环境搭建

本文以vscode为例，搭建scrapy开发环境。首先安装https://blog.csdn.net/huyongchao98/article/details/103909153需要搭建运行环境，并且创建出了自己的工程。使用vscode打开该工程，开始搭建vscode版本的scrapy开发环境。（1）安装python扩展。（2）安装yapf格式化工具。（3）.vscode设置工...

2020-01-09 15:37:28 273

原创 scrapy学习之路（一）运行环境搭建

以mac os为例：（1）安装Python 3 下载https://www.python.org/downloads/release/python-364/安装即可 (2) 安装pip依赖 https://pypi.org/project/pip/#files下载安装即可。（3）为pip设置代理 pip install -i http...

2020-01-09 15:33:42 260