爬取目标: 收集网站帖子里发帖人用户名,发帖人ID;帖子的ID,发帖内容;网站title
提前需要准备的python库
pip3 install requests //用于获得网站的源码
pip3 install bs4 //解析遍历网站标签
pip3 install urllib //解析网站的url
首先导入包
import requests
from bs4 import BeautifulSoup
from urllib.parse import parse_qs,urlparse
import json //导出文件的时候用json输出
第一部: 获取网站的源码
def get_Web_content(url):
response = requests.get(url)
if response.status_code == 200:
if '抱歉,指定的主题不存在或已被删除或正在被审核' in response.text:
return False
else:
return response.text
else:
return False
第二部: 获取网站的源码并且解析
def get_Web_Info(Content):
soup = BeautifulSoup(Content,"html.parser") //转化为BS对象
title = soup.title.string
url = soup.link['href']
parsed_url = urlparse(url) //parsed_url讲URL解析,最后返回字典对象(协议、位置、路径、参数、查询、片段).返回的查询query之后会用到
posted_url