爬虫
浅墨微蓝
这个作者很懒,什么都没留下…
展开
-
爬取百度贴吧(二) --爬取并清洗出所需内容
一、爬取网页源代码1、下载网页的html源代码from bs4 import BeautifulSoupdef handlechapter(url): response = urllib.request.urlopen(url) html = response.read().decode('utf-8') return htmlhtml = handlec...原创 2018-11-09 22:35:24 · 558 阅读 · 0 评论 -
爬取百度贴吧(一)--分析贴吧首页源码
一、分析贴吧网页源码结构直接打开源代码,太乱了。无从下手,那就从开发者工具找一下。我想获取每个帖子的标题、回复数、时间和链接(可能的话以后会尝试自动保存帖子当前页的截图)先选中帖子的模块吧~在chrome中,ctrl+shift+i就可以打开。选中elements的选项。接下来的操作就很简单了,只要将鼠标移到代码上,其所指示的位置就会标出。一步一步,得出了我想找的一...原创 2018-11-05 22:29:57 · 3201 阅读 · 0 评论