【萌狼原创】爬虫
文章平均质量分 50
Python爬虫相关笔记
萌狼蓝天
【求职中|应届|实习|重庆|广东】软件+人工智能专业。在校期间获得过两次国家励志奖学金、多次综测奖学金,专业成绩年级第一。担任过党委学生工作部学生综合事务管理科学生助理组长、学生会新媒体中心负责人、网信中心开发组组长、CSDN技术博主、阿里云开发者社区博主、信息技术类UP主、华为耀星大使、统信UOS校园大使。专业能力:Java全栈开发,Python爬虫、人工智能、FLASK网站开发,C#(.Net Framework)等;数据库:MySQL、MongoDB、Redis,具有多个项目开发经验。MS Office二级、C语言二级。业余能力:新媒体运营、PS、视频后期等。
展开
-
【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数
在上一篇笔记(【Python】【爬虫系列】【爬狼】001_urllib_get_获取响应结果页面代码 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt))我们将一个网页,解析为了文档(源码) 如果每解析一次网页,都要写那么多内容,就会很不方便 在一次爬虫项目,我们需要解析多个网页 那么,使用 “自定义函数”可以大大提高效率,简化代码 def xrilang_UrlToDocument...原创 2021-12-15 17:33:00 · 344 阅读 · 0 评论 -
【Python】【爬虫】【爬狼】003_获取搜索结果的页数
获取搜索内容的页数 需要的包 import urllib.request # 获取网页源码 import re # 正则表达式,进行文字匹配 from bs4 import BeautifulSoup # 解析网页 解析网页 第一步,解析网页为网页源码(【Python】【爬虫系列】【爬狼】002_自定义获取网页源码的函数 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt)) #...原创 2021-12-15 18:13:00 · 1882 阅读 · 0 评论