爬虫学习
文章平均质量分 91
Horace_01
CSDN放笔记类相关博文,专业的知识性文章放知乎(小白Horace)
展开
-
使用 Beautiful Soup
使用 Beautiful Soup参考资料:https://cuiqingcai.com/5548.html# 导入Beautiful模块from bs4 import BeautifulSoup# 初始化soup = BeautifulSoup(html,'lxml')soup = BeautifulSoup(html,'lxml)完成了初始化。如果该html不是完整的html代码(指没有html和body节点),初始化过程可以自动更正格式,将html,body部分补上。第一个参数html原创 2021-02-05 23:51:56 · 256 阅读 · 0 评论 -
python爬取虎嗅网首页新闻超链接、图片链接、标题
要求:爬取该网站首页内容,即获取每一个超链接、图片链接、标题,以.CSV存储(一行就是一个新闻的超链接、图片链接、标题)文章目录用不上的思考过程正文1.观察新闻页面源码2.编写代码提取信息3.观察首页源码并编写正则表达式源码建议直接点正文????用不上的思考过程1.新闻超链接存在于a的herf属性中,/article/408795.html,前面要加上https://www.huxiu.com2.图片链接暂时还不知道存在哪https://img.huxiucdn.com/article/cove原创 2021-02-08 15:47:28 · 2358 阅读 · 1 评论
分享