自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 网络爬虫维护

为了避免对网站造成过大的负担,我会检查爬虫的速度和频率,并根据需要进行调整。为了避免被网站封禁,我会定期更换爬虫的 user-agent 和 IP,以模拟不同的浏览器和用户行为。我会定期检查爬虫的工作状态,包括爬取的数据是否准确、是否存在重复数据、爬虫是否被封禁等。网络环境和技术在不断变化,因此我会不断学习新的技术和工具,以优化和改进爬虫的效率和质量。爬虫爬取的数据是非常重要的,因此我会定期备份数据,以防止数据丢失或损坏。总之,维护爬虫需要不断学习和调整,保持对爬虫的关注和细心,才能获得最好的效果。

2023-04-10 20:34:02 423

原创 obots.txt 文件是什么?怎么查找,怎么解析

需要注意的是,Robots Exclusion Protocol 是一种建议性协议,网站管理员可以选择是否遵守该协议,因此并不能保证所有的网站都会遵守该协议。对于没有设置 robots.txt 文件的网站,最好还是遵循良好的网络爬虫道德规范,尊重网站所有者的权益,避免对其造成过大的访问压力。要打开网站的根目录,可以在浏览器的地址栏中输入网站的域名或 URL 地址,即可访问该网站的首页。文件的网站,最好还是遵循良好的网络爬虫道德规范,尊重网站所有者的权益,避免对其造成过大的访问压力。,表示适用于所有的爬虫。

2023-03-29 14:43:35 439

原创 浅谈RPA

RPA(Robotic Process Automation)是一种自动化技术,它可以使用软件机器人来完成重复的输入、输出任务,从而为企业提供节省时间和成本的解决方案。RPA的未来发展将越来越强调人机协作(HMI),充分利用机器学习(ML)和自然语言处理(NLP)等AI技术,允许RPA机器人在给定任务的情况下自我完善。同时,RPA也将与大数据分析结合,帮助企业识别数据模式,以便做出更好的决策,提高企业的效率和效果。此外,RPA未来还将深入人工智能领域,为企业提供更多可用性和便利性。

2023-02-09 21:24:45 216

原创 通过注册表查询谷歌浏览器安装路径、版本以及添加环境变量

1、谷歌版本查询HKEY_CURRENT_USER\SOFTWARE\Google\Chrome\BLBeacon注册表读取version值,即可以得到谷歌的版本。2、安装路径查询HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\App Paths\chrome.exeHKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\App Paths\

2021-09-14 15:00:03 8941

原创 何为出口IP,以及如何查询

做业务遇到账号限制出口IP,自己的IP没有权限,需要在公司内部切换的情况,就顺手整理了下什么是出口IP,顺便就理解了为什么自己办公电脑上网这么卡了。出口IP:出口IP是指你的外网IP,比如你用的不是外网IP(公网)那么你发送的信息必须被路由器进行网络地址转换,你信息就会被外网识别。可以这么理解:出口IP是IP地址,是局域网内的电脑,配置的用来连接网络的IP,多台局域网内电脑共用一个上网IP,我查看组内电脑出口IP都是一致的。如果限制这一个IP的上网权限,组内所有人电脑均不可以上网。

2021-09-08 09:50:13 17477

原创 python无网条件下安装第三方库

前提先在有网的条件下,比如自己本地开发电脑1、导出库依赖关系2、根据依赖关系,下载安装包到指定文件夹,D:\package无网环境下 拷贝依赖关系和安装包文件到需要安装的电脑,统一放在一个文件夹下。”D:\mhl\” 安装python第三方包,执行如下命令: pip install --no-index --find-links="D:\mhl\package" -r "D:\mhl\equirements.txt"...

2021-09-07 17:54:39 996

原创 解决RPA针对chromedriver启动谷歌浏览器的反扒设置

问题描述:12306自动登录,填写账号和密码,识别二维码后,无法登录的问题原因分析:在使用selenium+chromedriver爬取网站时,12306网站会识别是否是自动化控制软件打开的。window.navigator.webdriver已打开百度为例:当网页正常打开:在控制台输入上方代码,会返回false或者undefined 使用selenium+chromedriver打开时,返回为true解决方案:scrpit = 'Object.d...

2021-09-07 17:44:45 757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除