准备工作
安装requests、bs4库。
获取headers,目标网址guba.eastmoney.com,
先打开一个网页标签,进入开发人员工具,选择network网络,
然后进入目标网址,找到下图所示的
点击可得,
正式爬取
此处选择茅台的讨论区进行爬取,其url为http://guba.eastmoney.com/list,600519_1.html。
首先测试能否访问网址,
import requests
import csv
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
headers = {
'Host': 'guba.eastmoney.com',
'User-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.81"
}
url = 'http://guba.eastmoney.com/list,600519_1.html'
response = requests.get(url, headers=headers)
print(response.status_code)
输出200即为成功访问。
观察网页信息及结构,获取想要的信息,
page = BeautifulSoup(response.content, "lxml")
print(page)
此处展示其中一段普通帖子的,
<div class="articleh normal_post">
<span class="l1 a1">12064</span>
<span class="l2 a2">66</span>
<span class="l3 a3"><em class="icon icon_list_hot"></em><a href="/news,600519,1009915816.html" title=