自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 如何采集网页数据

采集网页数据是从互联网上获取信息的过程,通常通过自动化或手动方式实现。目的和法规合规性确保明确了解您采集数据的目的。遵守相关法规,包括版权、隐私和数据保护法律。尊重目标网站的服务条款,以确保合法合规的数据采集。采集方法使用网络爬虫工具、API、自定义脚本或数据提供商等方法来获取网页数据。确保选择的方法适用于您的需求和技术能力。数据提取确定您要从网页中提取的数据类型,如文本、图像、链接等。使用适当的技术和工具提取数据,如正则表达式、XPath、CSS选择器或JSON解析等。

2023-10-15 13:05:25 904 1

原创 多方面了解虚拟机

由于软件与物理主机分离,用户可以在单个硬件上运行多个操作系统,从而节省企业的时间、管理成本和物理空间。虚拟机还可以支持旧版应用程序,从而减少或消除将旧应用迁移到更新或不同操作系统的需求和成本。此外,开发人员可以使用虚拟机在安全的沙盒环境中测试应用程序。开发人员想知道他们的应用程序是否能在新的操作系统上运行,可以利用虚拟机来测试他们的软件,而不必提前购买新的硬件和操作系统。这也有助于隔离恶意软件,由于虚拟机内的软件无法篡改主机,恶意软件无法传播。虚拟机同样也存在一些缺点。

2023-10-05 18:02:36 53

原创 Xpath相关梳理

使用lxml库时,可以使用lxml.etree.parse()方法解析XML文件或通过lxml.etree.fromstring()方法解析XML字符串。使用xml.etree.ElementTree库时,可以使用xml.etree.ElementTree.parse()方法解析XML文件或通过xml.etree.ElementTree.fromstring()方法解析XML字符串。在xml.etree.ElementTree库中,可以使用节点的findall()方法传入XPath表达式来选择节点。

2023-09-28 14:57:48 121

原创 虚拟机知识梳理

总的来说,虚拟机技术是现代计算领域中的重要组成部分,它提供了资源隔离、快速部署和灵活性,但也需要权衡性能开销和资源浪费等问题。在选择虚拟化解决方案时,需要根据具体的用例和需求来进行评估和选择。

2023-09-24 13:20:26 194 1

原创 数据采集知识梳理

进入网页获取请求头,在Pycharm里导入requests包,定制请求头后,输入网页地址,拼接出搜索功能,定义要传递的参数,设置好请求头、以及传递参数,打印地址,运行程序后,进入网址即可。获取地址中的请求头,导入requests包,定制好请求头,输入网页地址后,定义多参数,设置请求方式、请求头、传递参数,打印状态码,运行程序,执行后进入网址。模块和包:了解Python模块和包的概念,学习如何导入、使用和创建模块和包。基本语法:了解Python的基本语法,包括变量、数据类型、条件语句、循环语句和函数定义等。

2023-09-17 13:37:10 1253

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除