![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python(爬虫)-学习笔记
文章平均质量分 63
针对python爬虫学习笔记
朗风风
这个作者很懒,什么都没留下…
展开
-
爬虫-python -综合练习-51job信息-滑块验证-selenium
利用selenium爬51job职位信息-破解滑块验证1.爬51job职位信息0.头文件1.初始化2.页面登陆3.滑块验证4.获取网站的职位信息1.爬51job职位信息0.头文件需要用到以下文件from selenium import webdriverfrom selenium.webdriver import Chromefrom selenium.webdriver.common.by import Byimport timefrom selenium.webdriver.suppor原创 2022-01-19 16:23:04 · 5613 阅读 · 23 评论 -
爬虫-python -(12) 验证码 -selenium
1.验证码转化将图片验证码转化为字符串,有两种方式,其一为自己同图像处理识别文字,然后将字符串转化出,其二为让别人去转化,这样就需要上传至别人的网站,识别后将字符串返回给自己。现在学习第二种方法,这样就需要一个网站,这里用的是超级鹰。需要再超级鹰网站注册以及绑定微信免费领取1000积分。(因为让它给你识别验证码需要消费积分)以上过程都走完了,现在需要下载超级鹰的python模板,就是调用超级鹰返回验证码的程序。这个网站上有,直接下载即可。需要简单读取下这个程序,将需要的输入的东西搞明白。1-3分别原创 2022-01-15 20:47:25 · 649 阅读 · 0 评论 -
爬虫-python -(11) 基本操作、窗口切换、无头浏览器 -selenium
1.selenium是一个脚本,模拟浏览器操作,从网页里面可以获得比较复杂的想获得的东西。2.下载并安装环境1)pip install selenium2)安装浏览器驱动, 将下载的浏览器驱动放到python解释器所在文件夹...原创 2022-01-13 21:44:48 · 713 阅读 · 0 评论 -
爬虫-python -(10) 协程操作 异步操作-复杂模板
1.91视频-未用协程方式需要找到m3u8文件,并找到对应视频片段。91看剧'''1.爬取http://91kanju2.com/vod-play/61282-1-1.html信息2.提取m3u8下载url3.下载m3u84.读取m3u8文件,下载视频5.合并视频,写入的时候往后加,就可以叠加到一起'''from os import nameimport requestsimport re# #获取网站的源码的m3u8 以及保存m3u8文件# url = 'http://91k原创 2022-01-12 02:17:06 · 3347 阅读 · 0 评论 -
爬虫-python -(9) 协程操作 异步操作
1.协程重复利用单线程的cpu,对于处于IO操作可能会将程序切换到其他任务上。原创 2022-01-09 23:44:13 · 391 阅读 · 0 评论 -
爬虫-python -(8) 多线程与多进程操作以及线程池 异步操作
1.通过异步操作提高爬虫效率一般爬虫过程为,请求网页-响应请求-从响应中提取数据-保存有用数据,每次都是这样,如果有大量的网站,重复这样操作肯定很慢。现在可以通过异步操作,提高爬虫的效率。这里异步操作可以是多线程,多进程以及协程。这里有存在两个容易混淆的定义,线程和进程进程是资源单位(某几块地方) 每个进程必须包含至少一个线程线程是执行单位 (这块地方工作的人)2.多线程创建多线程有两种方法,第一种是直接调用函数thread函数,将需要创建的新进程函数和传参放入,然后start,就可以开始执原创 2022-01-08 20:49:55 · 718 阅读 · 0 评论 -
爬虫-python -(7) post中data加密 requet进阶
文章目录1.爬虫-网易云评论1.直接通过post的表单数据得到评论2.data加密过程解析2.总结1.爬虫-网易云评论1.直接通过post的表单数据得到评论首先随便打开一个音乐锦里-HOPE-T / 接个吻,开一枪获取以下位置文字查找文字是没有在源代码里面,所以肯定是后面加载的,所以需要从网络的XHR里面寻找。最终在这里找到,可以知道是通过post请求得到,需要知道表单也就是data数据,现在可以直接通过request.post 可以直接得到评论。import requestsu原创 2022-01-07 19:03:59 · 4290 阅读 · 0 评论 -
爬虫-python -(6) 防盗链与代理 requet进阶
文章目录1.梨视频视频链接2.代理3.总结1.梨视频视频链接梨视频将主页的视频链接以及**用re找到子页面的链接,用xpath找到视频链接的名字,heard头文件加入Referer可以*防盗链。import requestsfrom lxml import etreeimport csvimport reurl = 'https://www.pearvideo.com/'obj = re.compile(r'<a href="(?P<chilehtml>video_原创 2022-01-06 17:02:38 · 782 阅读 · 0 评论 -
爬虫-python -(5) 登录信息 cookie requet进阶
1.request进阶request会用到headers,会放在文件的请求头,有可能会放一些安全验证的东西。2.模拟用户登录-处理cookieimport requestssession = requests.session() #会话data = {'loginName': '13667357792','password': 'qq576871367'}#登录url = 'https://passport.17k.com/ck/user/login'session.post(u原创 2022-01-05 23:27:20 · 506 阅读 · 0 评论 -
爬虫-python -(4) 网站报价 XPath解析
1.XPathXPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。2.XPath使用根据节点进⾏搜索result = et.xpath("/book")result = et.xpath("/book/id") # /在开头表示⽂档最开始, /在中间表示⼉⼦result = et.xpath("/book//nick") # //表示后代result = et.xpath("/book/*/nick")原创 2022-01-04 22:22:27 · 365 阅读 · 0 评论 -
爬虫-python -(3) 网站菜价和图片下载 bs4解析
文章目录1.bs4爬*网站菜价2.bs4图片网站3.总结bs4是通过网站的标签以及属性找到,对应文本信息或者标签属性。1.bs4爬*网站菜价例程给的网站,改版了,需要post,查找返回数据,数据就不用在网页里面查找了,数据简单的,所以我自己又重新找了一个网站。蔬菜商情网import requestsfrom bs4 import BeautifulSoupimport csvdef geturl(url): #url = 'http://www.shucai123.com/price原创 2022-01-03 19:29:22 · 596 阅读 · 0 评论 -
爬虫-python -(1) 简单爬取数据、re解析
文章目录1.简单爬取数据2.数据解析3.re解析1) 常用元字符2) 常用限定符(量词)3)其他语法1.简单爬取数据1.爬取百度翻译进入百度翻译,用网站自带的抓包工具,找到输入请求的xhr。找到请求url,还有请求方法为post使用formdata 这种方式,kw:d d为查找的英文单词import requestsurl = "https://fanyi.baidu.com/sug"s= input("请输入英文单词:")dat = {"kw":s}resp = reques原创 2021-12-30 23:42:44 · 985 阅读 · 0 评论