自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_60576817的博客

原创网络爬虫维护

为了避免对网站造成过大的负担，我会检查爬虫的速度和频率，并根据需要进行调整。为了避免被网站封禁，我会定期更换爬虫的 user-agent 和 IP，以模拟不同的浏览器和用户行为。我会定期检查爬虫的工作状态，包括爬取的数据是否准确、是否存在重复数据、爬虫是否被封禁等。网络环境和技术在不断变化，因此我会不断学习新的技术和工具，以优化和改进爬虫的效率和质量。爬虫爬取的数据是非常重要的，因此我会定期备份数据，以防止数据丢失或损坏。总之，维护爬虫需要不断学习和调整，保持对爬虫的关注和细心，才能获得最好的效果。

2023-04-10 20:34:02 495

原创 obots.txt 文件是什么？怎么查找，怎么解析

需要注意的是，Robots Exclusion Protocol 是一种建议性协议，网站管理员可以选择是否遵守该协议，因此并不能保证所有的网站都会遵守该协议。对于没有设置 robots.txt 文件的网站，最好还是遵循良好的网络爬虫道德规范，尊重网站所有者的权益，避免对其造成过大的访问压力。要打开网站的根目录，可以在浏览器的地址栏中输入网站的域名或 URL 地址，即可访问该网站的首页。文件的网站，最好还是遵循良好的网络爬虫道德规范，尊重网站所有者的权益，避免对其造成过大的访问压力。，表示适用于所有的爬虫。

2023-03-29 14:43:35 563

原创浅谈RPA

RPA（Robotic Process Automation）是一种自动化技术，它可以使用软件机器人来完成重复的输入、输出任务，从而为企业提供节省时间和成本的解决方案。RPA的未来发展将越来越强调人机协作（HMI），充分利用机器学习（ML）和自然语言处理（NLP）等AI技术，允许RPA机器人在给定任务的情况下自我完善。同时，RPA也将与大数据分析结合，帮助企业识别数据模式，以便做出更好的决策，提高企业的效率和效果。此外，RPA未来还将深入人工智能领域，为企业提供更多可用性和便利性。

2023-02-09 21:24:45 260

原创通过注册表查询谷歌浏览器安装路径、版本以及添加环境变量

1、谷歌版本查询HKEY_CURRENT_USER\SOFTWARE\Google\Chrome\BLBeacon注册表读取version值，即可以得到谷歌的版本。2、安装路径查询HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\App Paths\chrome.exeHKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\App Paths\

2021-09-14 15:00:03 10543

原创何为出口IP，以及如何查询

做业务遇到账号限制出口IP，自己的IP没有权限，需要在公司内部切换的情况，就顺手整理了下什么是出口IP，顺便就理解了为什么自己办公电脑上网这么卡了。出口IP：出口IP是指你的外网IP，比如你用的不是外网IP（公网）那么你发送的信息必须被路由器进行网络地址转换，你信息就会被外网识别。可以这么理解：出口IP是IP地址，是局域网内的电脑，配置的用来连接网络的IP，多台局域网内电脑共用一个上网IP，我查看组内电脑出口IP都是一致的。如果限制这一个IP的上网权限，组内所有人电脑均不可以上网。

2021-09-08 09:50:13 20307

原创 python无网条件下安装第三方库

前提先在有网的条件下，比如自己本地开发电脑1、导出库依赖关系2、根据依赖关系，下载安装包到指定文件夹，D:\package无网环境下拷贝依赖关系和安装包文件到需要安装的电脑，统一放在一个文件夹下。”D:\mhl\” 安装python第三方包，执行如下命令： pip install --no-index --find-links="D:\mhl\package" -r "D:\mhl\equirements.txt"...

2021-09-07 17:54:39 1095

原创解决RPA针对chromedriver启动谷歌浏览器的反扒设置

问题描述：12306自动登录，填写账号和密码，识别二维码后，无法登录的问题原因分析：在使用selenium+chromedriver爬取网站时，12306网站会识别是否是自动化控制软件打开的。window.navigator.webdriver已打开百度为例：当网页正常打开：在控制台输入上方代码，会返回false或者undefined 使用selenium+chromedriver打开时，返回为true解决方案：scrpit = 'Object.d...

2021-09-07 17:44:45 909

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除