![](https://img-blog.csdnimg.cn/20200617230353461.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 81
爬虫
为谁攀登
积跬步至千里、 自律专注自由
展开
-
将爬虫部署到linux服务器
目录一、环境搭建1.1、python环境安装1.2、Twisted安装1.3、scrapy安装1.4、scrapy-redis安装(非必须)二、部署运行2.1、上传项目2.2、启动爬虫2.3、效果查看一、环境搭建1.1、python环境安装参考linux系统安装python3环境1.2、Twisted安装因为scrapy爬虫框架依赖Twisted插件,所有需要先安装它1)cd opt/到目录,执行命令wget https://twistedmatrix.com/Releases/Twisted/原创 2020-07-04 19:15:57 · 1227 阅读 · 0 评论 -
scrapy-redis使用
scrapy-redis是一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能原创 2020-07-04 19:03:19 · 3130 阅读 · 0 评论 -
爬取小说入库Mysql和Mongo
目录一、入库Mysql1.1、安装pymysql插件1.2、创建MysqlPipeline类1.3、配置文件修改1.4、效果查看二、入库Mongo2.1、安装pymongo插件2.2、创建MongoPipeline类2.3、配置文件修改2.4、效果查看本文以scrapy爬虫爬取完整小说为基础一、入库Mysql1.1、安装pymysql插件执行命令:pip3 install pymysql1.2、创建MysqlPipeline类在pipelines.py文件中新增MysqlPipeline类,将小原创 2020-06-28 22:25:47 · 383 阅读 · 0 评论 -
scrapy中间件自定义
自定义动态UA和动态Proxy中间件原创 2020-06-27 21:19:41 · 855 阅读 · 0 评论 -
scrapy爬虫爬取完整小说
使用scrapy轻松构建一个可以爬取完整小说的爬虫原创 2020-06-22 23:56:05 · 2183 阅读 · 2 评论 -
scrapy架构与爬虫搭建
Scrapy是Python开发的一个爬虫框架,可以用于数据挖掘、监测和自动化测试、信息处理等领域,它使用Twisted个异步网络库来处理网络通讯,架构清晰,包含了各种中间件接口,可以灵活的完成各种需求。原创 2020-06-21 22:28:08 · 146 阅读 · 0 评论 -
自定义爬虫程序结构
在不借助爬虫框架的情况下,自定义爬虫程序的代码结构,整体可以分为请求发送器、数据解析器、数据保存器、URL管理器、任务调度器和执行入口几部分。原创 2020-06-21 16:14:16 · 239 阅读 · 0 评论 -
爬虫与selenium自动化工具结合使用
Selenium是一个Web自动化测试工具,它可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,也可以截屏,或者判断网站上的事件。所以它很适合帮助我们构建网络爬虫了,而这个爬虫不仅能处理 JavaScrip、Cookie、headers信息,并且还能帮我们模拟真实用户的操作流程。原创 2020-06-21 10:58:09 · 764 阅读 · 0 评论 -
爬虫数据提取 -jsonpath
对于爬虫数据采集而言,除了直接解析html,还经常解析json格式数据,而JsonPath 是一种信息抽取类库,可以从json文档中抽取指定信息,JsonPath对于json来说就相当于xpath 对于xml。原创 2020-06-20 15:52:14 · 554 阅读 · 0 评论 -
爬虫数据提取 - xpath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上,我们也经常使用它来提取网页中的数据。原创 2020-06-20 14:26:53 · 616 阅读 · 0 评论 -
爬虫数据提取 - Beautiful Soup4
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,它能够实现对文档的导航、查找、修改,通过解析文档帮助我们提取所需的数据。原创 2020-06-20 11:31:44 · 271 阅读 · 0 评论 -
爬虫数据提取-正则表达式
对于爬虫数据的提取解析,正则表达式是常用的工具,通过其各种匹配规则,我们可以方便的从页面提取我们想要的内容。原创 2020-06-20 09:31:26 · 821 阅读 · 0 评论 -
爬虫常用模块使用
爬虫常用模块,包括opener、proxy、cookie、URLError等模块的用法原创 2020-06-19 23:24:06 · 2143 阅读 · 0 评论 -
动态UserAgent设置
目录1、安装fake-useragent插件2、使用之前User-Agent的值我们都是手动设置的,其实python中已经封装好了这样的库fake-useragent,它可以帮我们动态随机生成一个User-Agent值,模拟浏览器请求头信息。1、安装fake-useragent插件使用命令pip3 install fake-useragent进行安装D:\3.dev\pyworkspace\scraw\test01>pip3 install fake-useragent省略....Succ原创 2020-06-18 22:26:03 · 963 阅读 · 1 评论 -
爬虫get请求与post请求处理
目录1、Get请求2、Post请求1、Get请求get请求就是在url后面以拼接方式传参,但是如果参数是中文时需要转码处理,否则会报错。比如我们访问豆瓣的官网,然后在搜索框中输入“电影”关键字,可以看到浏览器中的请求为https://www.douban.com/search?q=电影如果我们直接模拟上面的url请求,则会报如下错误UnicodeEncodeError: 'ascii' codec can't encode characters in position 14-15: ordinal原创 2020-06-18 08:02:30 · 873 阅读 · 0 评论 -
Python简单爬虫实现
目录1、使用urlopen实现2、模拟浏览器的User-Agent信息3、使用随机代理信息1、使用urlopen实现我这里使用的Python 3.6.7版本,下面是通过urlopen()方式发起http请求,抓取站点的网页内容,这种方式的缺点是请求头中User-Agent的值是python的信息,这样对于爬虫来讲是不合格的,因为一般网站都能识别且会屏蔽此类请求,所以我们通常会使用浏览器的User-Agent信息。from urllib.request import urlopen# 1.爬取站点访原创 2020-06-17 22:52:51 · 680 阅读 · 0 评论