爬虫
爬虫王者
qq 1461124250 v 18918051863
展开
-
Python——cmd调用(os.system阻塞处理)
os.system默认阻塞当前程序执行,在cmd命令前加入start可不阻塞当前程序执行。例如:原创 2023-01-05 11:00:18 · 1711 阅读 · 1 评论 -
解决某网站无法调试的问题(function anonymous( ) { debugger })
Ctrl+F8原创 2021-02-23 21:51:24 · 35564 阅读 · 1 评论 -
1688获取数据并发邮件
# - * - coding : utf-8 - * -import osfrom datetime import datetime, timedeltaimport timeimport pyautoguiimport pyperclipimport randomimport pandas as pdimport jsonimport mathfrom urllib.parse import urlencodefrom utils.request import Reques原创 2021-04-21 16:24:38 · 675 阅读 · 0 评论 -
京满仓(工品汇)登录
本文属于专栏python爬虫登录,该专栏列举了10+个网站的登录破解办法,如感兴趣,欢迎关注及订阅。录入的网站有:1688淘宝信发集团上海有色网厦钨平台用友商业创新平台京满仓(工品汇)米思米三块神铁怡合达万千紧固件其中技术难点包括验证码识别,js逆向分析等。网站持续增加中…如以上网站不在您需要的范围内,欢迎私信询问。import urllib3urllib3.disable_warnings()import osimport reimport mathimpor原创 2021-10-09 16:22:07 · 969 阅读 · 0 评论 -
python3 requests禁用安全请求警告
# 禁用安全请求警告import requestsfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)控制台输出中无 SSL认证警告 了亲测可用原创 2020-09-02 14:32:37 · 1138 阅读 · 0 评论 -
css选择器中:nth-child()和:nth-of-type()简洁明了的区别
以https://bj.fang.lianjia.com/loupan/p_ycyxhfaawyk/huxingtu/1120032477145011.html为例,观察.news-glob > div:nth-child(10)和.news-glob > div:nth-of-type(10)的区别。实验发现:div:nth-child(10):是选择第10个子节点(按顺序看所有子节点),若第10个子节点是div节点,则返回该节点,若该节点不是div节点,则返回空。div:nth-of-原创 2020-07-14 17:18:03 · 348 阅读 · 0 评论 -
使用Scrapy-Splash实现淘宝免密登录
使用Scrapy-Splash实现淘宝免密登录:众所周知,淘宝的反爬能力较强,笔者试过屏蔽浏览器webdriver但效果不佳,因此另辟蹊径采取cookies免密登录爬取淘宝信息。创建爬虫后核心代码如下: def get_cookies(self,fp): with open(fp,"r") as f: cookies = json.load(f)...转载 2020-01-12 17:49:18 · 1046 阅读 · 0 评论 -
关于淘宝登录的四种解决方案
淘宝登录是爬虫的一个老大难的问题,因为淘宝有那么一群人专门针对爬虫客们下足了功夫,无论你是selenium模拟点击登录,还是利用cookies登录,都会被识别出来,验证码验证始终通过不了,其后台可能采取了有些机器学习的识别手段。那么我们又有这个需要去登录淘宝然后获取数据,该怎么做呢???下面给出三种解决方案:1.手动扫码登录既然模拟登录做不了,selenium也会被识别出来,那就手动扫码登...原创 2019-12-09 15:18:20 · 4802 阅读 · 3 评论 -
windows10安装appium
1.安装Appium desktop下载地址:https://github.com/appium/appium-desktop/releasesexe文件下载后安装2.安装Android SDKhttp://tools.android-studio.org/index.php/sdk选择installer_r24.4.1-windows.exe安装。3.安装java jdkhttp...原创 2019-12-08 21:05:36 · 421 阅读 · 0 评论 -
appium移动自动化测试提示error: Could not find a connected Android device
测试appium出现:[Appium] Welcome to Appium v1.8.0[Appium] Non-default server args:[Appium] address: 127.0.0.1[Appium] Appium REST http interface listener started on 127.0.0.1:4723[HTTP] --> POST ...原创 2019-11-26 23:20:51 · 1900 阅读 · 0 评论 -
python实现截图及定位功能
https://blog.csdn.net/zhou906767220/article/details/81103366http://www.manongjc.com/article/114483.html原创 2019-11-27 21:53:19 · 1164 阅读 · 0 评论 -
Python Requests:TooManyRedirects问题解决
一、重定向1.(Redirect)就是通过各种方法将各种网络请求重新定个方向转到其它位置,从地址A跳转到地址B了。2.重定向状态码:–301 redirect: 301 代表永久性转移(Permanently Moved)–302 redirect: 302 代表暂时性转移(Temporarily Moved )二、禁止重定向对于一个网站,使用requests库直接访问:r = req...原创 2019-10-19 11:11:53 · 5082 阅读 · 0 评论 -
selenium.common.exceptions.TimeoutException: Message: u'timeout\n解决办法
解决访问Https时不受信任SSL证书问题options = webdriver.ChromeOptions()options.add_argument(“service_args=[’–ignore-ssl-errors=true’, ‘–ssl-protocol=TLSv1’]”) # Python2/3options.add_experimental_option(‘excludeS...原创 2019-09-18 15:01:40 · 15202 阅读 · 0 评论