爬虫
文章平均质量分 96
爬虫技术的一些疑惑与解决方法
python__reported
python菜鸟入门,期待成为数据分析的大神;
互相帮助!
展开
-
appium安装使用问题(二)
appium安装使用问题(二)一、问题Appium安装问题第二步:问题一:第三步:问题二:二、解决方法第一个问题解决方法第二个问题的解决方法三、环境变量配置完整图一、问题Appium安装问题appium绝对不能直接安装,原因下载太慢使用node.js下载要用appium就必须node.js,下载node.js一路next的时候会有一个需要打勾的地方,注意不要打勾,因为这会安装python;当然对于还没有python的可以打勾勾上,如果有的就不要打勾其次,对于不想将npm包安装到系统盘的,需要原创 2021-07-19 14:50:37 · 1309 阅读 · 0 评论 -
裁判文书爬虫可执行版本
裁判文书爬虫可执行版本一、裁判文书爬虫二、使用方法(一)文字说明(二)图片说明三、下载方式四、结语一、裁判文书爬虫二、使用方法(一)文字说明README.mdReferee-document-crawler.exe文件位置:可执行的.exe文件位于Scripts/dist中,名字为定制selenium爬虫.exe使用方法:需要将dist这个文件夹下载下来,因为其中的png文件不能缺少,这是一个图片,缺少就会报错具体的.exe的使用方法:界面中有四个输入框,名字已经进行了说明; 需要注意的原创 2020-07-09 11:42:29 · 4304 阅读 · 5 评论 -
自动化之追踪热点
自动化之追踪热点一、成果二、主要思路:调api一、成果每天定时,主要是早上8点和晚上10点自动检测桌面的待办任务然后使用图片展示,如:1、桌面待做事项2、微博实时热点3、学术热点追踪二、主要思路:调api方法:这里的微博热点爬虫、以及cnki爬虫都是已经写好的程序,在此只是做了一些改写来符合调用的方式其中微博热点爬虫来自链接: Writeup001.而中国知网主要采取selenium通过手机知网的网址进行爬取用处:就是图片化强制关注,之前一直都在爬取微博热点但是从来没有看过;学原创 2020-08-25 22:22:31 · 2482 阅读 · 0 评论 -
selenium弹窗之windows下载文件弹窗点击方法
selenium弹窗之下载文件弹窗点击一、弹窗类型二、windows下载文件弹窗点击方法pyuserinput模块pyautogui模块一、弹窗类型一般说到selenium中的弹窗包括以下三种类型:类型一:窗口柄这种窗口常说的就是窗口句柄,其实并不能算弹窗,应该属于窗口切换类型二:web弹窗使用如下命令导致的:browser = webdriver.Firefox()browser.implicitly_wait(0.1)browser.get('https://www.bilibil原创 2020-05-28 15:26:23 · 7358 阅读 · 2 评论 -
selenium的namespace错误与无法定位:NamespaceError: An attempt was made to create...andUnable to locate elemen
selenium报错:NamespaceError: An attempt was made to create or change an object in a way which is incorrect with regard to namespaces'一、报错二、原因一、报错'selenium.common.exceptions.InvalidSelectorException: Message: Given xpath expression' "/html/body/div/div[4]/原创 2020-05-28 13:51:30 · 4346 阅读 · 0 评论 -
案例爬取(其二):Error:11004、状态码200但是返回None——自己坑自己的步骤
第二步:进行具体正文的提取,此时不止出现前面的代理问题:Error:10060,还时长出现Error:11004,和返回None简直一脸懵逼,他妈的又全是英文,还不仅python错误,连window的各种错误都出来了!!!!!!!!!!!!!!!!!!!!各种查找都没有找到解决方法!!!各种尝试中发现当我一个一个输入url时,成功了!!!!但是进行遍历提取时却是状态码200 和返回No...原创 2020-05-01 13:37:11 · 3240 阅读 · 0 评论 -
案例爬取(其一):url获取
一、背景:裁判文书比较全的网站大体上有中国裁判文书网、无讼网、聚法案例网、法律家中国裁判文书网:http://wenshu.court.gov.cn/无讼网:https://www.itslaw.com/home聚法案例:https://www.jufaanli.com/法律家:http://www.fae.cn/在这些网站中,中国裁判文书网的反爬措施过于高端(反正我是搞不定)、无讼网...原创 2020-05-01 14:38:26 · 3885 阅读 · 0 评论 -
《python数据分析基础》:[Errno 11004] getaddrinfo failed
《python数据分析基础》第6.4 seaborn的第三个图“成对变量之间的散点图与单变量直方图”'''成对变量散点图和单变量直方图'''iris = sns.load_dataset('iris')sns.pairplot(iris)在写这个代码时就存在一个疑惑,这个图的代码怎么没有数据或者说值,其他的可视化的图都会有值的导入,即使没有现成数据,也会使用pandas进行随机生成,例如...原创 2020-04-30 21:22:53 · 17395 阅读 · 7 评论 -
解决方法集锦:requests.exceptions.ChunkedEncodingError
运行程序报错;File “C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\models.py”, line 754, in generateraise ChunkedEncodingError(e)requests.exceptions.ChunkedEncodi...原创 2020-04-24 16:59:22 · 16512 阅读 · 6 评论 -
python获取2020年国家统计局省市县三级数据
python获取2020年国家统计局省市县三级数据一、数据来源二、获取思路三、完整代码四、成果四、获取地址一、数据来源国家统计局2020年最新的数据二、获取思路寻找url的规律所有省份页面:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html城市页面:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/11.html失去页面:http://www.s原创 2020-12-28 12:27:42 · 2589 阅读 · 0 评论 -
人脸识别与天网系统
人脸识别与天网系统一、结果二、识别库三、实现代码一、结果识别对象第一个是名字,第二个是百度上的内容二、识别库face_recognition三、实现代码class Face_recognition():def __init__(self,pic,pics): self.pic = pic self.pics = pics self.name = ""def face_know(self,file): known_image = face_recogni原创 2020-10-31 21:43:10 · 2226 阅读 · 0 评论 -
多线程、进程下载视频
多线程、进程下载视频一、结果展示二、使用的工具三、线程进程方法化多进程视频下载一、结果展示二、使用的工具视频下载使用you-get,多线程使用threading、多进程multiprocessing以下为三个库的简介you-get:threading:multiprocessing三、线程进程方法化from concurrent.futures import ThreadPoolExecutor as eimport time,sysfrom multiprocessin原创 2020-10-22 16:06:13 · 870 阅读 · 0 评论 -
庭审录播爬虫
庭审录播爬虫一、庭审直播网二、爬取对象三、爬取分析(一)视频地址获取(二)视频文件四、 视频下载五、成果六、问题一、庭审直播网二、爬取对象庭审公开网的内容包括直播与录播直播没有办法爬,只能看的时候进行录制所有选定的目标为录播三、爬取分析(一)视频地址获取首先录播视频的加载方式为点击查看更多后进行动态进行新内容的加载加载中url并不变化其中case_list中的就是视频的地址不点击see more不会加载后续内容因而此处使用selenium进行模拟点击(二)视频文件首先通原创 2020-09-22 15:51:26 · 3709 阅读 · 0 评论 -
爬虫修正:裁判文书网20200901更新增加登录系统
爬虫修正:裁判文书网20200901更新增加登录系统一、登录系统的增加二、增加登录函数三、一个比较纠结的地方一、登录系统的增加导致需要登录,直接是无法进入了。以往可以直接进入具体的类别如现在无法进入,点击该网址,后跳转到登录界面需要通过手机号进行注册后才可以进入二、增加登录函数 def login(self): """登录""" # 切换框架 wait = self.wait self.browser.refresh() frame原创 2020-09-04 15:31:35 · 4696 阅读 · 42 评论 -
selenium的两种sendkeys差异
selenium的两种sendkeys差异一、两种需要输入的文本框(一)第一种:常态的文本输入框(二)第二种:特殊的文本输入框二、问题三、解决方法预览:报错:'FirefoxWebElement' object has no attribute 'sendkeys'方法:actions.move_to_element(time_send).send_keys("2019-01-01").perform()#开始日期成功截图:一、两种需要输入的文本框此处均以裁判文书网为例(一)第一种:原创 2020-06-29 13:31:14 · 10097 阅读 · 0 评论 -
selenium节点(元素)遍历的疑惑
selenium节点的遍历一、节点遍历是什么二、问题三、解决方法四、结语一、节点遍历是什么例如:由于裁判文书网只显示前600个,我的思路就是通过关键词的限定实现内容在600条以内,因而完整的下载需要进行关键词的遍历html:二、问题直接进行遍历会报错,原因不明如:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import原创 2020-06-09 11:59:10 · 4520 阅读 · 4 评论 -
中国裁判文书下载:selenium路线
中国裁判文书下载:selenium路线一、requests路线二、selenium路线问题一:namespace error 命名空间错误问题二:元素的动态变化问题三、只显示前600份裁判文书问题四:弹出框的处理三、selenium路线的缺陷成功现状:一、requests路线requests路线需要对js进行解密,对js解密时遇到三个参数docidcipher__RequestVerificationToken这三个参数主要是针对文书列表页面的试图在这个页面获取相应的链接,js解密后原创 2020-06-05 18:24:18 · 4272 阅读 · 7 评论