![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 94
哈都婆
I have no limitations
展开
-
flask+scrapy
您可以使用它来获取随机的浏览器、操作系统和设备类型等信息,或者从预定义的用户代理池中选择特定类型的用户代理。在SDS中,buf数组的长度不一定就是字符串的字符数量加一,buf数组里面可以包含未使用的字节,而这些未使用的字节由free属性记录。Redis提供的数据类型主要分为5种自有类型和一种自定义类型,这5种自有类型包括:String类型、哈希类型、列表类型、集合类型和顺序集合类型。fake_useragent库的主要功能是生成随机的用户代理字符串,以模拟不同类型的浏览器、设备和操作系统的请求。原创 2023-06-07 17:43:24 · 860 阅读 · 0 评论 -
网页解析--bs4--01
可以看到bs4库将网页文件变成了一个soup的类型,通俗一点说就是: bs4库把html源代码重新进行了格式化,从而方便我们对其中的节点、标签、属性等进行操作。bs4模块是Python爬虫中常用的一个解析库,它可以读取HTML、XML等文档,并将其解析成为Python可以操作的数据结构,方便我们对其中的数据进行提取和处理。下面是一个使用bs4模块实现爬取网页并提取数据的详细流程:首先,我们需要安装bs4模块。接下来,我们需要将获取到的HTML文档交给bs4模块进行解析。原创 2023-04-12 14:51:08 · 711 阅读 · 0 评论