前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
在我们浏览网页,浏览器会渲染输出HTML、JS、CSS等信息;通过这些元素,我们就可以看到我们想要查看的新闻,图片,电影,评论,商品等等。一般情况下我们看到自己需要的内容,图片可能会复制文字并且下载图片保存,但是如果面对大量的文字和图片,我们人工是处理不过来的,同时比如类似百度需要每天定时获取大量网站最新文章并且收录,这些大量数据与每天的定时的工作我们是无法通过人工去处理的,这时候爬虫的作用就体现出来了。
内容介绍:
话不多说,直接开始,开始我们的论坛爬虫旅程。
1、模块导入
# encoding:utf8
import requestsfrom bs4 import BeautifulSoup
导入requests网络数据请求模块,用于网络爬虫。导入BeautifulSoup尾页解析模块,用于网页数据处理。
2、获取url资源
def getHtmlList(list, url, main_url):
try:
soup = getHtmlText(url)
managesInfo = soup.find_all('td', attrs={'class': 'td-title faceblue'})
for m in range(len(managesInfo)):
a = managesInfo[m].find_all('a') #获取帖子的位置
for i in a: