2020-02-05

qq_45935852

于 2020-02-05 22:10:40 发布

阅读量76

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45935852/article/details/104189394

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

大三学生爬虫小白，求大神解析问题

想爬一下微博上肺炎那个疫情地图里每个市的确诊人数练手

都写完代码发现爬出来是空的，我试了一下代码发现问题是：在获取页面时候发现除了我要的那body部分其他都有，就是没有我要的数据那部分。不知道为什么。

import requests
import re
from lxml import etree

class DDSpider(object):
def init(self,key):
self.key = key
self.headers={‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36’}
self.base_url =‘https://news.sina.cn/’ key

#获取页面
def get_pageInfo(self):

        page_url = self.base_url
        re= requests.get(page_url,headers=self.headers)
        print(re.content.decode('utf-8'))
        self.parse_pageInfo(re.content.decode('utf-8'))

#解析页面
def parse_pageInfo(self, html):
Html=etree.HTML(html)
url= Html.xpath(’//*[@id=“mylist”]’)
print(url)

if name ==‘main’:
dd=DDSpider('zt_d/yiqing0121 ')
dd.get_pageInfo()

优惠劵

qq_45935852

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
2020-02-05

大三学生爬虫小白，求大神解析问题想爬一下微博上肺炎那个疫情地图里每个市的确诊人数练手都写完代码发现爬出来是空的，我试了一下代码发现问题是：在获取页面时候发现除了我要的那body部分其他都有，就是没有我要的数据那部分。不知道为什么。import requestsimport refrom lxml import etreeclass DDSpider(object):def init...
复制链接

扫一扫