shallow~萱
码龄6年
关注
提问 私信
  • 博客:4,309
    4,309
    总访问量
  • 9
    原创
  • 2,262,456
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-06-18
博客简介:

shallow_xxx的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得5次评论
  • 获得11次收藏
创作历程
  • 9篇
    2021年
成就勋章
TA的专栏
  • python爬虫
    9篇
  • Scrapy框架
    4篇
兴趣领域 设置
  • 用户体验设计
    交互uxuiphotoshop
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

367人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Scrapy框架-ItemPipeline的用法

ItemPipeline的用法主要功能:核心方法ItemPipeline实例构造请求提取信息存储信息MongoDBMySQL主要功能:清理HTML数据验证爬取数据,检查爬取字段查重并丢弃重复内容将爬取结果保存到数据库核心方法process_ittem(必须实现的方法)open_spider(spider):spider开启时自动调用close_spider(spider)from_crawler(cls,crawler):是一个类方法,用@classmethod标识,是一种依赖注入
原创
发布博客 2021.03.15 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scrapy框架-Spider Middleware的使用

Spider的用法spider的运行流程爬取循环过程spider的运行流程定义爬取网站的动作分析爬取下来的网页爬取循环过程以初始的URL初始呼哈Request,并设置回调函数在回调函数内分析返回的网页内容 1根据返回结果,进行不同处理 2一种返回结果经处理后保存,一种解析得到下一个链接,可以利用此链接构造Request并设置新的回调函数 ↩︎返回字典或Item对象,可通过Feed Exports等组件将返回结果存入文件,如果有pipeline就用它处理 2.返回Requ
原创
发布博客 2021.03.11 ·
439 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Scrapy框架-Selector的用法

Selector的用法Scrapy shellXPath选择器CSS选择器正则匹配Scrapy shell借助Scrapy shell来模拟Scrapy请求的过程:cmd输入以下命令开启Scrapy shell:scrapy shellhttp://doc.scrapy.org/en/latest/_static/selectors-sample1.html可以在该模式下输入命令调用对象的一些操作方法,回车之后实时显示结果XPath选择器返回结果是selector组成的列表,实际上是
原创
发布博客 2021.03.07 ·
200 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python-Scrapy框架入门

Scrapy框架入门使用项目架构基本实现创建项目保存到文件使用Item Pipeline项目架构scrapy.cfg //配置文件project/init.pyitems.py //item数据结构piplines.py //定义Item Pipeline的实现settings.py //定义项目的全局配置middlewares.py //定义Soider MIddlewares和 Downloader Middlewares的实现spiders/init.pyspid
原创
发布博客 2021.03.07 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python爬虫--代理的使用

代理的使用代理池的维护存储模块代理池的维护基本模块:存储模块: 使用Redis的有序集合负责存储抓取下来的代理,保证代理不重复获取模块:需要定时在各大代理网站抓取代理,代理的形式都是IP加端口,尽量从不同来源获取,尽量抓取高匿代理。检测模块:需要定时检测数据库中的代理,设置一个检测链接,最好是爬取哪个网站就检测哪个网站接口模块:需要用API来提供对外服务的接口,由于可用代理可能有多个,那么我们可以设置一个随机返回某个可用代理的接口,这样就能保证每个可用代理都可以取到实现负载均衡存储模块
原创
发布博客 2021.02.14 ·
1214 阅读 ·
0 点赞 ·
4 评论 ·
0 收藏

爬取淘宝商品信息

爬取淘宝商品获取商品列表获取商品列表from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait imp
原创
发布博客 2021.02.07 ·
278 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

动态渲染页面爬取

动态渲染页面爬取Selenium的使用基本使用声明浏览器对象访问页面查找节点节点交互Selenium的使用基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as EC4from se
原创
发布博客 2021.02.05 ·
1311 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

文件存储

数据存储文件存储TXT文本存储JSON文件存储CSV文件存储文件存储TXT文本存储import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent':'Mozilla/(Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML,like Gecko)'
原创
发布博客 2021.01.24 ·
411 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python解析库的使用

解析库的使用XPath使用Xpath功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入XPath使用Xpath在XML文档中查找信息的语言:XPath概览 提供了简洁明了的路劲选择表达式;XPath常用规则:表
原创
发布博客 2021.01.23 ·
125 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏