自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬取豆瓣音乐

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。使用requests的get方法请求网址并打印状态码,判断是否年正常访问网页((不要复制状态为404的js文件)获取网页的xpath。

2023-10-15 22:11:41 58 1

原创 虚拟机的网络配置

的用户名和密码(root为一种特殊的权限,让用户获得系统的最高权限,从而可以访问系统的所有文件,修改系统文件,安装特殊的软件,更改系统设置等。查看IP后进行修改IP,首先查看本虚拟机的IP地址,点击NAT模式重的NAT设置(注意:子网IP地址最后一位。,因为掩码的网段,最后一位是0的IP是网段的网络地址,而最后一位是255的IP是网段的。网络配置完成(如果无法上网,建议查看IP是否正确,bing进行重启网络配置)。(如果输入错误,无法更改,可以输入。再次查看IP地址,IP已经更改完成。

2023-10-06 12:16:06 175

原创 虚拟机创建

如果太大的话读取很慢,反而会降低系统运行速度,虚拟内存小也不能很好的起到虚拟内存的作用,所以一般虚拟内存是按照1.5-2的比例来划分的,但是如果2g的物理内存的话建议3g虚拟就可以。虚拟内存是在硬盘中主要用来为物理内存更快的读取数据服务的,但是虚拟内存并不是越大越好,因为硬盘的数据存取速远远比不上内存,所以虚拟内存的加速作用是有局限性的。,每个处理器内核数量是每个芯片的核心数量,虚拟机数量不高于实际CPU处理器的核心数就行。,这里选择的是VMware17 pro(第一次下载虚拟机要重启)

2023-10-05 18:40:21 42

原创 使用ETREE获取文本元素

etree是python中的XML解析库,主要用于解析和操作XML文档,用 pip install lxml 安装etree。3.通过href属性定位查找出已知Html中[li]中第4个[li]标签属性及a元素文本信息。2.通过class属性查找html中第三个【li】标签属性和a元素文本信息。1.查找出html中【li】第一个【li】标签下的a元素文本信息。4:提取出含有‘line-’的li下的a元素内容。5.删除左右空格,使用空格替换\n。以HTML为例来获取其中的元素。

2023-09-24 19:56:23 644 1

原创 爬虫基础——爬取豆瓣

首先爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。我们常见的网络爬虫有百度,搜狗,谷歌等。使用requests.get()函数发送GET请求,并模拟浏览器的请求头,减少被网页识别为爬虫的风险,防止以后不能再爬取该网站。需要导入requests包,requests包能模拟浏览器的请求,用于访问目标网站,获取网页数据。注意:不要过度请求网站,频繁爬取网站会导致网站处理器崩溃并不能再次访问该网站。将网站地址分为三模块:基础地址,搜索和参数,参数即在网站搜索的目标。

2023-09-17 20:26:47 1074

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除