python爬虫
我是星星bling
这个作者很懒,什么都没留下…
展开
-
爬虫处理“显示更多”按钮
使用关键词“爬虫处理‘显示更多’按钮”搜索时,网上出现最多的方法就是“使用selenium点击‘显示更多’按钮”,于是便按照网上的一些教程开始编写。主要参考:https://www.cnpython.com/qa/731745Python使用selenium模拟点击(一) - 混在园子里的底层码农 - 博客园之前参考学长代码的时候接触过selenium,所以关于一些导入selenium包,以及使用chromedriver我这边基本已经实现了,可以直接编写代码了,关于准备工作可以参考网上的其他一些原创 2022-01-14 11:29:56 · 2538 阅读 · 0 评论 -
TypeError: argument of type ‘NoneType‘ is not iterable
初始报错代码: # if 'http' in soup_img.get('src'): # item['avatar'] = soup_img.get('src') # else: # item['avatar'] = ''修改之后的代码try: if 'http' in soup_img.get('src'): item['avatar'] = soup_img.get('src') else: item['avatar原创 2022-01-06 11:05:44 · 2248 阅读 · 0 评论 -
Message: invalid cookie domain: Cookie ‘domain‘ mismatch
今天在测试前辈的代码的时候遇到了这个问题,检查了好多遍自己的cookie明明没有出错,而且还参照了网上的一些教程发现好多跟自己的情况都不怎么相符。后来无奈之下就询问了前辈,最后前辈发现问题,原因是这段代码是前辈很久之前写的,访问的这个网站现在的网址已经变了(很无奈我竟然没有发现这个问题),之后改了网址之后就不报错并且可以顺利访问了。...原创 2022-01-05 16:58:36 · 4619 阅读 · 0 评论 -
BeautifulSoup判断某个标签下某标签的数量
图1:图2:如果需要获取图中<tr>下标签的数据,图1和图2的结构很相似但是又有区别,假设有很多个图1类型的 和很多个图2类型的,这时就需要判断一下二者之间的区别,才能获取目标数据。 图1<body>下有两个<div>标签,而图2<body>下只有一个<div>标签,这时就可以先获取二者共同的第一个<div>标签:div = soup.div然后判断一下该<div>...原创 2021-10-21 15:25:20 · 1030 阅读 · 0 评论 -
正则表达式匹配字符串中以数字结尾的字符
正则表达式匹配字符串中以数字结尾的字符<li class="xxx"><a href="http://www.xxx.net/abc90.htm">abc90</a></li><li class="xxx"><a href="http://www.xxx.net/abc90history.htm">abc90history</a></li><li class="xxx"><a href原创 2021-10-20 11:19:53 · 3605 阅读 · 0 评论