自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 关于使用Beautifulsoup解析网页标签属性丢失的解决方案

今天在使用Beautifulsoup解析某宝的网页代码时出现了这样的一幕:通过标签提取不到我想要的数据,然而我标签及其属性都没有写错。之后我对返回的源码进行了检查。相应的解决方案就是在获取网络源码后,使用Beautifulsoup解析时需要在函数里加上from_encoding='utf-8’这个参数。可以看到文本值为2023的span标签中的class值解析出来直接就没有了,而且解析的结果也很乱。这是通过Beautifulsoup解析源码后得到的与上图对应部分的结果。这是我通过检查元素看到的源码。

2023-04-23 18:06:53 325 2

原创 python爬虫实战 scrapy+selenium爬取动态网页

使用scrapy对接selenium完成对动态网站的爬取

2023-04-16 15:15:15 5911 2

原创 python爬虫学习日志 使用selenium爬取动态网页数据

什么是动态网页?动态网页是指在用户访问时,在服务器端动态生成网页内容的网页。与静态网页不同,静态网页是指在服务器上提前生成并存储的网页,无法根据用户的需求和操作进行实时更新。动态网页可以根据用户的请求和输入生成数据,并可以包含交互式元素,如表单、按钮等。对此,我们如果想要获取网页中会更新的内容,只依赖requests库是获取不到相应数据的,这里我们就可以使用selenium来帮助我们获取网页数据。Selenium是一种用于测试Web应用程序的自动化工具,支持多种浏览器和多种编程语言。

2023-03-30 14:53:16 1534 3

原创 python爬虫学习日志 爬取静态网页数据

爬虫学习——编写一个简单的爬虫

2023-03-28 15:37:09 896 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除