爬虫获取微信公众号里面的表格内容+整理数据导出表格
前言
需求:统计深圳市各大剧场的钢琴表演节目的信息数据
有位朋友,他兼职了某个研究院;给他了一个任务就是统计深圳市内各大剧场的钢琴表演节目信息的数据。这件事情让他头疼,哈哈哈哈 跟我说了以后,我立刻想到用python来解决一下;
我记得,深圳艺文惠公众号 把每周的各大剧场的演出表演总结,并且放到他们的公众号推文里面的。 我平时比较喜欢文艺的东西,没有去过几次,但是常常关注 哈哈哈哈; 现在用上了,这个是我们幸运的点,我们很顺利的找到了数据源(从哪里获取这些数据); 而且这些都是整理好的,直接获取即可。 这里不得不表扬深圳艺文惠公众号,哈哈哈哈;
于是,我打开推文的URL地址,在浏览器中按F12键,打开HTML结构,分析了一波后就有了思路;
**思路:
****第一步:模拟浏览器请求URL地址
****第二步:获取HTML文档结构
****第三步:根据HTML结构,定位找到想要的内容
****第四步:获取到的内容根据“关键字”筛选数据
****第五步:收集每周推文的链接,整理汇总到表格中
****第六步:读取推文链接,重复运行上面的五个步骤
****第七步:筛选的数据写入到表格中,并且导出
**
实现
**第一步:模拟浏览器请求URL地址
第二步:获取HTML文档结构
**
import requests # 导入请求库
def getHtml(url):
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
}
# 发送GET请求获取网页内容
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
return response.text # 返回HTML内容
**第三步:根据HTML结构,定位找到想要的内容
**
我们首先分析HMTL结构内容:
从图中可以看到,我们想要获取的数据,在 <table> 面的 <tody>下面的每一个 <tr>里面 因此在 items = doc.xpath('