
python爬虫
文章平均质量分 92
掌握爬虫的基本技能
hwwaizs
这个作者很懒,什么都没留下…
展开
-
python爬虫(二十四)爬取汽车之家某品牌图片
爬取汽车之家图片需求爬取汽车之家某品牌的汽车图片目标urihttps://car.autohome.com.cn/photolist/series/52880/6957393.html#pvareaid=3454450页面分析最开始出现的全景的图片不是爬取的范畴。实现步骤原创 2021-10-16 23:30:00 · 1746 阅读 · 0 评论 -
python爬虫(二十三)scrapy shell、settings文件补充、middlewares文件介绍
scrapy shellscrapy shell 是scrapy的交互终端,在不启动scrapy(不创建scrapy项目)的情况下调试代码。.比如要进入百度,在cmd里输入 scrapy shell baidu.com,可以从返回的结果中看到网页已经获取响应,并返回结果。这时我们可以通过response.进行操作,response.body 获得二进制的源码,response.text 获得字符串形式的源码,response.encoding 获得网页的编码形式,response.url 当前请求的原创 2021-10-12 23:26:45 · 388 阅读 · 0 评论 -
python爬虫(二十二)scrapy案例--爬取腾讯招聘数据
爬取腾讯招聘数据需求分析爬取腾讯招聘–社会招聘–技术类的工作岗位,实现翻页的爬取页面分析复制任意职位名称,点右键,查看网页源代码,在里面并未找到相关内容,说明页面不是静态加载出来的,是动态加载出来的。点击Network —> XHR,刷新页面,在左侧name下出现4个文件,依次点击查找数据接口,在Query开头的文件中Preview中可以看到需要的职位名称,因此这个文件下Headers里的url就是我们需要爬取的url。当我们点击页面尾部下一页的时候,在name下面出另加载出来一个Que原创 2021-09-26 22:53:59 · 3275 阅读 · 0 评论 -
python爬虫(二十一)scrapy案例--爬取古诗文网
爬取古诗文网需求爬取网页中诗词的数据,爬取每首诗的名字、作者、朝代和诗词的内容页面分析爬取页面的诗词,复制任意诗词的内容,在网页源码中可以找到,说明网页是静态加载出来的,说明显示的url就是爬取的目标,可以直接用url获取数据。目标url:https://www.gushiwen.cn/。任意选择一首诗词的标题,点右键检查,会发现标题的内容存放在p标签下的a标签内。标签折叠到p标签内,可以看到第一个p标签里存放的是诗词的标题,第二个p标签存放的是作者和朝代,下面的div标签里存放的是诗词的内容原创 2021-09-20 00:39:37 · 4673 阅读 · 0 评论 -
python爬虫(二十)scrapy介绍、框架、工作流程及步骤、爬取豆瓣主页标签
scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取,Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度。scrapy是异步爬虫的框架,是爬虫必备的技术,很少有语言有专门的框架进行爬虫,python中的scrapy框架是专门用于爬虫的;让爬虫程序更稳定,效率更高,scrapy框架的很多内容都是封装好的;配置和可扩展性很高,有了固定的框架,直接去添加内容和调用就可以了;基于异步的,内部封装了Twisted中文意思是原创 2021-09-19 00:35:50 · 3251 阅读 · 0 评论 -
python爬虫(十九)函数、面向对象、多线程方式实现小米应用商店的爬取
小米应用商店的爬取需求爬取目标url: https://app.mi.com/category/6,爬取摄影摄像应用信息,名称,分类,详情界面的url。最后还要实现翻页的爬取先用正常的方法爬取,然后再改写成多线程的方法,对比两种方法的爬取速度。页面分析搜索要爬取的应用的名称,通过右键、网页源码查看,发现要搜索的内容不在网页源码中,通过Network的XHR中查看。复制headers里的url 在浏览器中可以看到,应用的信息是以字典的形式存放在网页中。点击某个应用,进入该应用的详情页,在跳转原创 2021-09-18 22:40:28 · 632 阅读 · 0 评论 -
python爬虫(十八)多线程的创建、工作原理、线程锁、队列
多线程多进程系统中运行的应用程序,打开浏览器,pycham等都是一个个的应用程序,可以同时运行。一个应用程序就是一个进程,多个就是多进程。比如电脑卡住了,但是可以打开任务管理器去关掉占用资源多的应用程序。最开始电脑只有1个CPU,只能执行一个进程,其他进程就会处于堵塞的状态,之所以感觉到多个进程同时运行,是CPU进行高速的切换处理,出现了多核,多个CPU就可以同时执行多个任务。多线程CPU 是通过线程去执行进程的,进程中的执行单位就是线程,进程中包含的执行单元就是线程,一个进程可以包含多个线程。一个原创 2021-09-18 21:53:28 · 431 阅读 · 0 评论 -
python爬虫(十七)12306案例
12306案例学习目标通过案例复习selenium的知识点,通过selenium抓取Ajax数据,使用Ajax技术,打开页面的时候不会完全显示内容,通过按钮操作后网页不会全部更新,实现部分界面的增量数据更新。只更新数据不刷新整个界面。需求人工操作12306的购票流程,让程序按照人操作的流程去模拟操作。步骤第一步,登录;第二步,车次及余票的查询(点击查询按钮),进入购票界面;第三步,解析车次列表数据,人为的选择是通过肉眼判断的,要通过程序实现对车次列表的解析;第四步,确认乘客信息和席别;第五步,核原创 2021-09-13 08:58:40 · 3038 阅读 · 0 评论 -
python爬虫(十六)selenium页面等待
Selenium页面等待Cookie操作获取所有的cookie根据cookie的name获取cookie删除某个cookie页面等待selenium并不是为爬虫而生,但是它的所见即所爬可以方便的用来进行爬取数据,加载速度很慢,需要打开页面,加载相应的元素。如果打开网页,内部的元素慢慢进行加载,如果打开网页立即去查找元素,就会报出异常;很多网页是用Ajax加载出来的,如12306,只有选择日期,往返地,点击查询后才能加载出来数据,这就是需要页面等待的两个原因。之前进行页面等待是用的python内原创 2021-09-13 08:57:48 · 2254 阅读 · 0 评论 -
python爬虫(十五)selenium爬取猫眼和京东
selenium案例练习爬取猫眼电影数据页面需求使用selenium爬取猫眼Top100中,电影每部电影的排名,电影名,主演,上映时间及评分。页面分析通过分析页面结构,选择合适的接入点。selenium直接进行页面检查就可以,不用再分析代码是否在源码中出现。光标位于第一个电影处,点击右键,检查,定位到第一个电影的信息,我们可以把标签折叠,可以看到dd标签里存放了一个电影的所有数据,所有的dd标签里存放了本页面所有的电影,而dd标签都存放于dl标签内。那我们只需要找到dl标签,再从里面找到dd标原创 2021-09-04 23:32:40 · 1802 阅读 · 0 评论 -
python爬虫(十三)selenium(Selenium入门、chromedriver、Phantomjs)
selenium介绍爬虫与反爬虫使用爬虫程序会给服务器造成一定的压力,维护者会制定一系列的反爬机制,二者进行相互切磋。爬虫建议尽量减少请求次数,程序执行速度比较快,会对服务器产生压力,管理者会指定一系列的反爬机制进行制衡,可以将请求到的网页源码保存获取到的HTML,供查错和重复使用关注网站的所有类型的页面H5页面:html5 = html4 + css3 +JavaScriptAPP多伪装代理IP,设置代码格式是固定的,免费的代理IP并不多随机请求头,进行爬虫的时候可能不是只请求一次原创 2021-08-31 23:01:27 · 714 阅读 · 0 评论 -
python爬虫(十四)selenium(select、17素材网、模拟登录豆瓣和QQ空间、获取cookie、行为链)
selenium介绍(下)选择selectselect元素不能直接点击。因为点击后还需要选中元素。这时候selenium就专门为select标签提供了一个类from selenium.webdriver.support.ui import Select。将获取到的元素当成参数传到这个类中,创建这个对象。以后就可以使用这个对象进行选择了。案例分析进入网站:https://www.17sucai.com/boards/53562.html,选择左侧的下拉框图片,进去之后,选择右边的查看演示。我们要进原创 2021-09-02 22:49:37 · 783 阅读 · 0 评论 -
python爬虫(十二)爬取好看视频和新发地菜价
在文章《python爬虫(十一)》的基础上,增加两个小案例,增加对知识点的运用,这里就只进行简单的页面分析(详细的过程请参照《python爬虫(十一)》),具体内容可查看代码。爬取好看视频首页的视频内容需求爬取好看视频首页的视频,并分类存储于相应的文件夹内,视频名为网站上显示的文件名。页面分析百度好看视频,进入首页,点击刷新发现,每一次显示的视频是不一样的,所以爬取到的视频会出现跟看到的不一致的情况。视频首页有推荐,影视,音乐,vlog,游戏等标签,我们可以设置生成相应名称的文件夹。在主页点击原创 2021-08-28 22:54:21 · 1536 阅读 · 0 评论 -
python爬虫(十一)爬取贴吧图片
爬取贴吧图片需求打开百度贴吧,找到图片吧,找到每日一图,有577张图片。在网页中图片是以二进制的形式存在的,我们要先拿到图片的url地址,去发起请求,以二进制保存到本地。页面分析光标在任意一张图片处,点右键,检查,光标会定位到图片所在的位置,复制里面的url,去浏览器中可以打开这张图片,但是图片的url值能并非在网页源码中,直接向这个url发起请求并不能得到想要的数据,这时候就需要分析数据接口,去查找数据点击右键,检查,点击XHR,找到左侧 “list?kw=”的文件,依次点开preview -原创 2021-08-27 00:43:39 · 2244 阅读 · 0 评论 -
python爬虫(十)BeautifulSoup案例分析-爬取全国天气状况
爬取全国天气原创 2021-08-26 12:18:19 · 4150 阅读 · 0 评论 -
python爬虫(九)BeautifulSoup
BeautifulSoupre xpath bs大多还是用于静态网页的爬取,BeautifulSoup4,4是版本号,是用来网页代码数据解析的工具,Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库。学习bs4用来解析和提取数据的,每个网页的结构不同,面对不同的网页结构选择不同的解析方式,随着网页种类的增加,我们要灵活的选择最合适的提取网页数据的解析方式。对比学习不同的解析方式:正则表达式 匹配数据的时候要把正则作为一个整体,写的时候比较复杂。xpath原创 2021-08-24 21:54:12 · 362 阅读 · 0 评论 -
python爬虫(八)xpath案例
xpath复习导入第三方库,向网页发起请求,获取html文件,把html文件加载成element对象加载给tree,然后就可以使用xpath方法,xpath是不确定的路径,通过字符串的形式把确定的路径传进去,就能够根据路径找到元素。**需求:**取出前三个li标签里文本值和class值,保存到csv文件里from lxml import etreeimport csv# etree 里包含了xpath的一些功能html = """<html> <head>原创 2021-08-21 15:03:09 · 3118 阅读 · 0 评论 -
python爬虫(七)xpath
xpath的介绍三大解析数据的方式,re,xpath,BeautifulSoup4。前期,re+requests可以完成简单的爬虫程序,后期用正则表达式会比较复杂,有些时候提取出来的数据很乱,正则好比是模板通过模板去取一些数据,再在数据里面进行筛选,取匹配提取出我们需要的数据。x是不确定的,path为路径,xpath可以理解为一种可以根据路径找数据的技术;虽然是不确定的路径可以根据指定的路径取寻找数据。xpath全称是:XML Path Language,可以在树状结构中寻找节点,可以通过元素和属性导原创 2021-08-19 10:28:06 · 254 阅读 · 0 评论 -
python爬虫(六)csv和正则案例
csvCSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件。python自带了csv模块,专门用于处理csv文件的读取,后缀名是.csv。在爬虫和很多案例里面都会把数据写到csv文件里,爬虫下来的数据会用于数据分析,对数据进行持久化处理(保存),读取数据用到的就是csv,然后进行数据分析。csv模块的使用写入csv文件1 通过创建原创 2021-08-17 11:25:46 · 864 阅读 · 0 评论 -
python爬虫(五)正则表达式
正则表达式的简介动态网页的难点在于找数据接口,Network里找,大部分用了Ajax技术,selenium可以爬取静态和动态的网站。正则表达式的概述正则表达式是由.*?() 是有一些特殊符号组合在一起的字符串,对你预知的字符串进行验证,好比抓取的网页源码是一大段字符串,我们需要在里面提取某些内容。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。比如我们写好的模板,去模板里匹配某原创 2021-08-15 15:17:57 · 590 阅读 · 0 评论 -
python爬虫(四)cookie模拟登录和反反爬案例
处理不被信任证书的网站SSL证书:数字证书的一种,配置在服务器上面的,类似于驾驶证、护照和营业执照的电子副本。因为配置在服务器上,也称为SSL服务器证书。SSL证书的特点:遵循了SSL协议,由收信任的数字证书颁发机构CA,验证身份之后颁发的证书,同时具有服务器身份验证和数据传输加密功能。SSL证书的发展历程:为啥网站会出现SSL证书? 具有服务器身份验证和数据传输加密的功能,https是http的安全版本,是在http的基础上添加的安全阶层(ssl层),https在传输的时候,就有ssl加密和解密的原创 2021-08-11 11:25:55 · 4963 阅读 · 0 评论 -
python爬虫(三)requests模块和urllib的post请求
urllib发送post请求案例:有道翻译学习目标:使用urllib发送post用户需求:通过python制作简易版的小翻译软件Response(响应)我们向URL发送的请求,得到的响应的原始数据是在Response里,但是里面的数据过长,不方便查看,可以到Preview(预览)里去查看,Preview里数据格式比较清晰,跟Response里的数据一样。页面分析利用有道翻译,输入“奥运会”,进行翻译。处理的过程中首先要先确定数据在哪,是静态加载还是动态加载出来的,点右键–>查看网页源码原创 2021-08-09 17:05:14 · 16816 阅读 · 0 评论 -
python爬虫(二)urllib的快速入门
是原创 2021-08-06 16:33:13 · 948 阅读 · 3 评论 -
Python 爬虫 (一)前导知识
爬虫简介通信协议网络模型爬虫的概念原创 2021-08-04 23:51:20 · 432 阅读 · 0 评论