自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (10)
  • 收藏
  • 关注

原创 scrapy学习之路(八)网页解析:BeautifulSoup

scrapy通过selenium获取到网页以后,为了获取数据,我们需要对网页进行解析,BeautifulSoup是一种比较好用的页面解析工具。(一) 安装beautifulsoup4 pip installbeautifulsoup4(二)在spider中解析网页: (1)引入模块: from bs4 import Beautiful...

2020-01-16 14:46:27 845

原创 scrapy学习之路(七)selenium获取网页中的图片或多媒体信息

方案是通过DesiredCapabilities设置prefs通过页面的加载日志来获取,依然在DownloaderMiddleware中实现:(1)webdriver设置perfs:prefs = {"profile.managed_default_content_settings.images": {2}}d = DesiredCapabilities.CHROME...

2020-01-15 11:30:55 581

原创 elasticsearch学习之路(一)docker单机安装elasticsearch

基本的命令为: docker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:7.5.1扩展:添加配置文件并且暴露数据:docker run -p 9200:9200 -p 9300:9300 -v /...

2020-01-14 13:54:46 170

原创 kafka学习之路(一)docker安装kafka

kafka依赖于zookeeper,所以安装kafka需要对应的安装zookeeper这里采用wurstmeister/kafka和wurstmeister/zookeeper这两个镜像。(1)下拉镜像:docker pull wurstmeister/zookeeper docker pull wurstmeister/kafka(2)基本的启动命令启动zoo...

2020-01-13 16:10:22 248

原创 scrapy学习之路(六)selenium 模拟下拉加载

很多网页,有下拉加载或者懒加载的功能,如何爬取这类网站呢?还是通过selenium模拟人工操作来实现,这里以下拉加载为例介绍,依然在DownloaderMiddleware中实现该功能,具体代码如下:在process_request方法中,判断是需要处理的页面以后,加入如下代码:driver = spider.driverdriver.get(request.url)time....

2020-01-10 15:36:40 1807 1

原创 scrapy学习之路(五)一种实现登陆爬取的方案:selenium

很多网站是需要登陆的,并且有自己的登录逻辑,通过selenium可以实现模拟网站登录以及事件的点击,是一种比较难拦截的爬虫方案。 先决条件: (1)首先需要引入selenium和requests类,在requirements.txt中加上这两个以后,在venv中执行pip install即可,一定要在venv中执行,否则可能报错。 (2)安装对应的chromedri...

2020-01-09 16:45:12 331

原创 scrapy学习之路(四)给scrapy一个爬取目标

运行环境和开发环境搭建好了,scrapy的基本运行流程也有了基本了解以后,我们会有个疑问?如何让schedule组件知道我需要爬取的网站的网址了?我们需做的是给scrapy一个爬取的目标。使用vscode打开创建的工程(工程创建方法:https://blog.csdn.net/huyongchao98/article/details/103909481不了解scrapy的同学,请从https...

2020-01-09 16:16:41 239

原创 scrapy学习之路(三)scrapy基本架构和代码结构

本文以https://blog.csdn.net/huyongchao98/article/details/103909153和https://mp.csdn.net/postedit/103909481为基础,讲解scrapy基本架构和代码结构,熟悉scapy工作的基本流程和原理。先看一下scrapy的基本架构图:各组件的作用:引擎(Scrapy)用来处理整个系统的数据流处理...

2020-01-09 15:50:54 545

原创 scrapy学习之路(二)开发环境搭建

本文以vscode为例,搭建scrapy开发环境。首先安装https://blog.csdn.net/huyongchao98/article/details/103909153需要搭建运行环境,并且创建出了自己的工程。使用vscode打开该工程,开始搭建vscode版本的scrapy开发环境。(1)安装python扩展。(2)安装yapf格式化工具。(3).vscode设置工...

2020-01-09 15:37:28 273

原创 scrapy学习之路(一)运行环境搭建

以mac os为例:(1)安装Python 3 下载https://www.python.org/downloads/release/python-364/安装即可 (2) 安装pip依赖 https://pypi.org/project/pip/#files下载安装即可。(3)为pip设置代理 pip install -i http...

2020-01-09 15:33:42 260

求一个自定义对象的深度

求一个自定义对象的深度,数组实现,ios,供参考

2012-05-14

ios不规则按钮

ios下,iphone,ipad,通过图片,实现的各种不规则形状的按钮例子.

2012-03-10

linux 下的c 编程

讲述linux下的c语言编程,比较深入讲解了c ,以及c与汇编的关系等,个人觉得不错!

2011-02-15

class反编译工具XJad2.2

绿色的class反编译XJad2.2,用着感觉真的很不错!

2010-04-09

c语言大全第四版,pdf格式,很好的书

c语言大全第四版,pdf格式,很好的书,对人很有启发的书

2009-12-09

手机软件安装工具:JAD生成器

手机软件安装工具:JAD生成器

2008-05-10

MySQL-Front.rar

<br>MySQL-Front.rar<br><br>

2008-05-10

JS获取网页中HTML元素的几种方法分析

JS获取网页中HTML元素的几种方法分析

2008-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除