自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Scrapy框架-ItemPipeline的用法

ItemPipeline的用法主要功能:核心方法ItemPipeline实例构造请求提取信息存储信息MongoDBMySQL主要功能:清理HTML数据验证爬取数据,检查爬取字段查重并丢弃重复内容将爬取结果保存到数据库核心方法process_ittem(必须实现的方法)open_spider(spider):spider开启时自动调用close_spider(spider)from_crawler(cls,crawler):是一个类方法,用@classmethod标识,是一种依赖注入

2021-03-15 11:10:38 119

原创 Scrapy框架-Spider Middleware的使用

Spider的用法spider的运行流程爬取循环过程spider的运行流程定义爬取网站的动作分析爬取下来的网页爬取循环过程以初始的URL初始呼哈Request,并设置回调函数在回调函数内分析返回的网页内容 1根据返回结果,进行不同处理 2一种返回结果经处理后保存,一种解析得到下一个链接,可以利用此链接构造Request并设置新的回调函数 ↩︎返回字典或Item对象,可通过Feed Exports等组件将返回结果存入文件,如果有pipeline就用它处理 2.返回Requ

2021-03-11 10:26:33 290 1

原创 Scrapy框架-Selector的用法

Selector的用法Scrapy shellXPath选择器CSS选择器正则匹配Scrapy shell借助Scrapy shell来模拟Scrapy请求的过程:cmd输入以下命令开启Scrapy shell:scrapy shellhttp://doc.scrapy.org/en/latest/_static/selectors-sample1.html可以在该模式下输入命令调用对象的一些操作方法,回车之后实时显示结果XPath选择器返回结果是selector组成的列表,实际上是

2021-03-07 17:06:10 167

原创 Python-Scrapy框架入门

Scrapy框架入门使用项目架构基本实现创建项目保存到文件使用Item Pipeline项目架构scrapy.cfg //配置文件project/init.pyitems.py //item数据结构piplines.py //定义Item Pipeline的实现settings.py //定义项目的全局配置middlewares.py //定义Soider MIddlewares和 Downloader Middlewares的实现spiders/init.pyspid

2021-03-07 16:00:39 84

原创 python爬虫--代理的使用

代理的使用代理池的维护存储模块代理池的维护基本模块:存储模块: 使用Redis的有序集合负责存储抓取下来的代理,保证代理不重复获取模块:需要定时在各大代理网站抓取代理,代理的形式都是IP加端口,尽量从不同来源获取,尽量抓取高匿代理。检测模块:需要定时检测数据库中的代理,设置一个检测链接,最好是爬取哪个网站就检测哪个网站接口模块:需要用API来提供对外服务的接口,由于可用代理可能有多个,那么我们可以设置一个随机返回某个可用代理的接口,这样就能保证每个可用代理都可以取到实现负载均衡存储模块

2021-02-14 15:03:38 1102 4

原创 爬取淘宝商品信息

爬取淘宝商品获取商品列表获取商品列表from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait imp

2021-02-07 09:53:52 222

原创 动态渲染页面爬取

动态渲染页面爬取Selenium的使用基本使用声明浏览器对象访问页面查找节点节点交互Selenium的使用基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as EC4from se

2021-02-05 15:54:03 1022

原创 文件存储

数据存储文件存储TXT文本存储JSON文件存储CSV文件存储文件存储TXT文本存储import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent':'Mozilla/(Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML,like Gecko)'

2021-01-24 16:35:00 204

原创 Python解析库的使用

解析库的使用XPath使用Xpath功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入XPath使用Xpath在XML文档中查找信息的语言:XPath概览 提供了简洁明了的路劲选择表达式;XPath常用规则:表

2021-01-23 22:07:39 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除