python爬虫
文章平均质量分 69
Indra_ran
python/深度学习
展开
-
爬虫的高阶使用——scrapy框架crawl shell,crawlSpider imagepipeline
一、scrapy shell的使用在命令行输入scrapy shell “网址名”,以百度的域名为例子,需要了解即可,可以打印你想知道的信息(python38) F:\SpiderProject\spider\某易云评论\easecloud\easecloud>scrapy shell "https://www.baidu.com"[s] Available Scrapy objects:[s] scrapy scrapy module (contains scrapy.Reque原创 2022-03-21 20:19:54 · 3658 阅读 · 0 评论 -
爬虫的高阶使用——scrapy框架进阶
一、思考1.为什么下面的代码会用到yield?import scrapyfrom ..items import DoubanItemclass DoubanSpider(scrapy.Spider): name = 'douban' #爬虫名字 # allowed_domains = ['https://www.douban.com/'] # 允许爬取的范围 start_urls = ['https://movie.douban.com/top250'] #第一个访问的UR原创 2022-03-21 20:18:28 · 491 阅读 · 0 评论 -
爬虫的高阶使用——scrapy框架
scrapy框架一、框架的基本使用1.介绍Scrapy是一个开源协作的框架,其目的是为了页面抓取,使用它可以快速、简单、可扩展的从网站中提取所需要的数据用途十分广泛,可用于数据挖掘、监测和自动化测试等领域,使用的时候十分方便,并通过异步来实现并发2.组成部分Scrapy Engine——引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件Scheduler——调度器用来接收引擎发过来的请求,压入队列中,并在引擎再次请求时返回,可以理解为一个URL的优先级队列,由他原创 2022-03-21 20:17:30 · 549 阅读 · 0 评论 -
爬虫的进阶使用——异步爬虫
一、异步爬虫1.异步爬虫的了解在爬取数据下载的时候,通常是下载一个才能下载下一个,我们想要同时来下载节约时间python有限制,只能使用1个满cpu核心。GIL全局锁想要实现从单线程到并发执行的转换,所以有了异步爬虫异步:就是说cpu先干完自己的事情,然后去干别的事情,让磁盘去慢慢读取,但时不时会出来看一眼磁盘都没读完,读完了就往下做,没读完就继续做其他事情。一般来说的话异步是搭配协程来实现的2.异步模块asnico的了解import asynciofrom time import s原创 2022-03-21 20:16:29 · 3510 阅读 · 0 评论 -
爬虫的进阶使用——数据的存储
一、csv存储数据1.csv的介绍一般来说,存储数据量较大的就用csv,其格式简单,并且可以用office打开,容易存储数据2.csv的基本使用将数据写入的文件后缀名是csv,但是一定要先创建对象创建对象之后一定要先写入表头,然后再写入数据,写入的数据一般是列表中加入元组或者字典读取文件数据的时候,返回的是一个列表,可以通过下标取值import csvheaders = ['名字','身高','年龄']stuedents = [ ('丸子',"180",'18'),原创 2022-03-21 20:15:37 · 691 阅读 · 0 评论 -
爬虫的进阶使用——xpath,bs4
一、xpath1.xpath的语法介绍//:表示根目录,text():表示元素里面的内容.:表示当前节点,/:表示下一节点要想使用xpath语法,就要安装lxml包,并从里面导入etree一般的话如果是html的网页转化成的字符串,就要用etree.HTML()如果是文件的话,就要用etree.parse()来进行使用注意!!返回的都是列表2.xpath的使用1.etree.HTML的使用from lxml import etreedata = """<div>原创 2022-03-21 20:14:24 · 1080 阅读 · 0 评论 -
爬虫的进阶——xpinyin,requests_html
一、xpinyin模块的使用1.为什么使用xpinyin模块当我们让爬虫程序去访问大量的不同的网站时,有时会遇到搜索的关键词的拼音就在网址里,这就需要我们自动地去识别程序举个例子就是某图网2.xpinyin 了解import requests # 导入请求包from retrying import retryfrom xpinyin import Pinyin# 实例化一个xpinyin的对象p = Pinyin()# 得到汉字的拼音,一般来说使用-隔开print(p.get_原创 2022-03-21 20:11:37 · 525 阅读 · 0 评论 -
爬虫需要知道的基础
一、爬虫概述1.爬虫必须知道的要素爬虫要遵循网上的爬虫机器人协议,怎样查看——在网址后面加上/robots.txt来查看,可以查到哪些是允许的,哪些是不允许的爬虫的基本步骤:找到网址,发起请求,解析页面并获得原始数据,对数据进行处理,保存处理后的数据网址分为http开头,https开头端口分别是80和4432.爬虫的基本介绍2.1网页布局的介绍首先要知道按下F12之后网页的布局,一般来说就是从左到右是元素也就是通常说的前端页面的代码,然后是控制台,再之后就是资源,再之后就是网络(一般检原创 2022-03-21 20:09:36 · 591 阅读 · 0 评论