大三学生爬虫小白,求大神解析问题
想爬一下微博上肺炎那个疫情地图里每个市的确诊人数练手
都写完代码发现爬出来是空的,我试了一下代码发现问题是:在获取页面时候发现除了我要的那body部分 其他都有,就是没有我要的数据那部分。不知道为什么。
import requests
import re
from lxml import etree
class DDSpider(object):
def init(self,key):
self.key = key
self.headers={‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36’}
self.base_url =‘https://news.sina.cn/’ key
#获取页面
def get_pageInfo(self):
page_url = self.base_url
re= requests.get(page_url,headers=self.headers)
print(re.content.decode('utf-8'))
self.parse_pageInfo(re.content.decode('utf-8'))
#解析页面
def parse_pageInfo(self, html):
Html=etree.HTML(html)
url= Html.xpath(’//*[@id=“mylist”]’)
print(url)
if name ==‘main’:
dd=DDSpider('zt_d/yiqing0121 ')
dd.get_pageInfo()