python 爬虫
文章平均质量分 67
主要记录爬虫过程中的一些问题及经验
crayonJJ
新的一年要努力鸭
展开
-
接口校验流程
第二步:通过路径在XHR断点中进行校验:赋值路径/front/search/category,在网页点击source(源代码),右侧找到XHR/fetch Breakpoints(XHR/提取断点)点击添加路径,然后重新刷新网页。直到看到关键字路径/front/search/category,然后点击requestHeaders查看请求头校验,同时可以看到options中data格式为字符串格式,所以不能直接data不能写为常用的json格式。将验证字段添加到请求头中。原创 2023-03-17 23:31:17 · 565 阅读 · 1 评论 -
Appium1.22.3下载安装与配置
第一步,下载Appium-Server-GUI:下载地址:https://github.com/appium/appium-desktop/releases下载到本地后,在运行Appium Server GUI之前,需要先确保已配置好java环境和andriod sdk(主要是JAVA_HOME和ANDROID_HOME),由于笔者提前配置好了,这里不做赘述,未安装的同学需要安装配置完毕再回到这一步。点击Appium Server GUI.exe运行,点击点击Edit Configuration原创 2022-07-13 16:57:26 · 9468 阅读 · 9 评论 -
Fiddler下载安装及手机APP抓包设置
由于需要用到APP数据抓包分析,所以本文记录下Fiddler下载安装的流程,以及如果在手机设置代理,成功在fiddler访问手机APP数据。第一步,下载Fiddler:Fiddler官网链接:https://www.telerik.com/fiddler,点击【try for free】→【Fiddler Classic】:填写以下三个信息(一和三可以随便选择一项),然后点击【download for windoes】下载到本地,之后点击FiddlerSetup一步步点击Next安装(同其他安装软原创 2022-07-06 18:41:52 · 7021 阅读 · 2 评论 -
python图片切割以及识别图片中的文字
在爬取网站https://verbalearn.com/game-tri-tue/dap-an-duoi-hinh-bat-chu/时,需要按如下需求爬取图片和答案:本次爬取数据量不大,爬取内容也都集中在一个页面,网站也没有异步加载或反爬措施,但是遇到了三个难点:难点一:图片链接是lazyload,且全部151条图片链接,分散在两个模块下,第一个模块’//div[@class=“entry-content”]/figure/img’的43条图片链接数据爬取顺利,第二个模块’//div[@class=“原创 2022-05-27 18:14:00 · 2483 阅读 · 0 评论 -
pinterest images scrape(selenium实现)
今天记录海外图片素材网站Pinterest的图片爬取初步分析:网站是动态渲染网站,每往下滑动,刷新出来新的页面;通过观察刷新后的网页,初步定位每页的请求url是https://www.pinterest.com/resource/BaseSearchResource/get/,可以看到这是一个POST请求,之后分析Preview和Response可以确定该url里面的确有我们要的数据:但是该POST请求有两个加密参数:source_url和data;经对比后,发现每页数据的source_url是相同的转载 2022-05-23 09:33:42 · 1244 阅读 · 0 评论 -
selenium+文件读取写入操作练习+1
今天记录从excel表中读取成语,输入网站查询,获取成语的常用程度,并写入excel中;(之前的方式是直接从谷歌搜索结论数,但是谷歌的人机校验实在不好绕过,且时间成本很高,所以换了个直接有成语常用度数据的网站,选对合适的网站就简单得很)。完整代码及分析如下:# from selenium import webdriver# from selenium.webdriver.common.by import By# from selenium.webdriver.common.keys import K原创 2022-05-19 09:55:59 · 421 阅读 · 0 评论 -
js逆向分析---analysis参数分析
analysis参数是js加密之后的,需要对原代码进行逆向分析才能解密爬取。js逆向分析的学习,参考B站关于music评论爬取的视频(https://www.bilibili.com/video/BV1Mf4y1s7ds?p=42),七麦网的分析,参考博客https://blog.csdn.net/weixin_43582101/article/details/122456609这里以music评论为例记录下js逆向分析的流程。转载 2022-05-17 13:40:42 · 831 阅读 · 0 评论 -
爬取图片文件时 Lazy Load(图片延迟加载)的处理(xpath定位方式)
注意:以后再遇到图片lazyload问题,先从找到真正属性入手,不要被加密和混淆绕远:如果控制台的elements里面看不到真正属性,那就右键从网页源代码里面找图片链接对应的真正属性! 在爬取脑筋猜词画迷题库的时候,爬取到的图片没有正常显示网页src后面对应的链接,而是显示’data:image/gif;base64,R0lGODdhAQABAPAAAMPDwwAAACwAAAAAAQABAAACAkQBADs=',如下图所示:原因是src对应的链接,设置了lazyloaded(延迟加载),所以不应用原创 2022-05-17 11:51:39 · 2802 阅读 · 3 评论 -
python+selenium从excel读取成语到谷歌搜索得到搜索结论数
今天记录利用selenium从excel中读取内容,将内容输入到谷歌浏览器中,并搜索得到结论数,然后再将结论数写入excel中的案例。思路:1,利用selenium模拟用户操作浏览器,由于是繁体成语,且是在谷歌浏览器中进行搜索,先开启代理,然后将谷歌浏览器默认语言设置为中文繁体(设置->高级->语言),同时在谷歌浏览器的主页,还要将浏览器页面的展示设置为繁体;2,设置完之后,关闭Chrome浏览器,进入电脑C:\Users\AppData\Local\Google\Chrome路径下,原创 2022-05-09 18:39:27 · 936 阅读 · 0 评论 -
强迫症去掉‘Backend QtAgg is interactive backend. Turning interactive mode on.’提示
在使用PyCharm时,不知是导入了matplotlib还是导入pyqt5模块,即使没有用到这两个模块,也总是提示‘Backend QtAgg is interactive backend. Turning interactive mode on.’:强迫症实在受不了,网上搜了几种方法,前几种方法(包括修改settings,将Enable interactive mode选项选中和增加以下代码的方式)都无效,遂将最终有效的方法记录在这里。import matplotlib.pyplot as plt原创 2022-05-05 18:37:44 · 12361 阅读 · 3 评论 -
xpath-通过列表推导式和string(.)的方式获取标签下包含子标签的所有文本
如图,需要得到出处文本内容,如果只是"./p[4]/text()"匹配,则会漏掉/a下面的“起坐”和“桃笙”:改为列表推导式和string(.)的方式返回/p下面的所有子节点文本:chuchu = result.xpath("./p[4]") for a in chuchu: origin = [i.xpath('string(.)') for i in a.xpath('.')] print('origin:',origin[0][3:]) # 再通过[3:]切割去掉“出处原创 2022-04-28 14:54:17 · 861 阅读 · 0 评论 -
列表生成式+过滤器(filter)+映射(map)+lambda总结
列表生成式+过滤器(filter)+映射(map)+lambda总结这些都是python的特色,不仅强大,而且好用,配合起来使用更是无敌。lambdalambda用于产生一个匿名表达式,组成部分为:lambda + ‘函数表达式’ ‘函数表达式’由一个冒号加上两个‘操作数’组成,如:lambda x:x*3冒号左边的操作数,作为函数的参数;冒号右边的作为函数的放回值!那么lambda x:x*3就等价于:def func(x): return x*3列表生成式列表生成器转载 2022-04-12 11:34:07 · 781 阅读 · 0 评论 -
Tesserocr 的安装及一些失败处理(windows环境)
Tesserocr 是 Python 的一个 OCR 识别库,但其实是对 Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本文用来记录安装流程以及安装过程中遇到的一些问题和处理方式。第一步,下载 TesseractTesseract为 Tesserocr 提供了支持,下载链接为:http://digi.bib.uni-mannheim.de/tesseract/。这里我直接下载的最新版:原创 2022-03-21 16:11:23 · 5681 阅读 · 2 评论 -
easyocr快速安装及图片文字提取演示(小语种)
前几天工作中需要用到图片识别,由于从图片中提取的文字是小语种越南语,了解了几种图片识别库之后决定使用easyocr(支持80+种语言)来进行文字提取,easyocr的介绍可详见官网:https://github.com/JaidedAI/EasyOCR,想要使用该图片识别库的童鞋,可以先在demo(https://www.jaided.ai/easyocr/)上试验一下,看看自己的图片在demo上识别的准确度:一,easyocr安装:安装easyocr之前最好安装pytorch,笔者是windows原创 2022-03-18 15:57:05 · 9830 阅读 · 3 评论
分享