python
文章平均质量分 94
嗯诺
这个作者很懒,什么都没留下…
展开
-
【python】网络爬虫与信息提取--scrapy爬虫框架介绍
scrapy是一个功能强大的网络爬虫框架,是python非常优秀的第三方库,也是基于python实现网络爬虫的重要技术路线。scrapy不是哟个函数功能库,而是一个爬虫框架。爬虫框架:是实现爬虫功能的一个软件结构和功能组件集合。原创 2024-02-19 14:13:30 · 2186 阅读 · 0 评论 -
【python】网络爬虫与信息提取--正则表达式
正则表达式是用来简洁表达一组字符串的表达式。是通用的字符串表达框架,简洁表达一组字符串的表达式,针对字符串表达“简洁”和“特征”思想的工具,判断某字符串的特征归属。用处:表达文本类型的特征;同时查找或替换一组字符串;匹配字符串的全部或部分。编译:将符合正则表达式语法的字符串转换成正则表达式特征。语法:正则表达式由字符和操作符构成。原创 2024-02-17 23:02:46 · 1415 阅读 · 0 评论 -
【python】网络爬虫与信息提取--Beautiful Soup库
目的:让html内容更加友好的显示方案:利用BS库的prettify()方法prettify()作用:能够为html文本的标签以及内容增加换行符,它也可以对每一个标签来做相关的处理。原创 2024-02-13 21:14:17 · 2176 阅读 · 0 评论 -
【python】网络爬虫与信息提取--requests库
当一个软件想获得数据,那么我们只有把网站当成api就可以requests库:自动爬取HTML页面,自动网络请求提交robots协议:网络爬虫排除标准(网络爬虫的规则)beautiful soup库:解析HTML页面。原创 2024-02-11 21:37:28 · 3430 阅读 · 0 评论