python爬取今日头条街拍美图（2020.2月新版）

最新推荐文章于 2024-05-15 14:42:13 发布

sgzsnake23

最新推荐文章于 2024-05-15 14:42:13 发布

阅读量673

点赞数 1

文章标签： python mongodb 大数据

本文链接：https://blog.csdn.net/sgzsnake23/article/details/104349020

版权

最近再学习python爬虫，有幸看到崔庆才大大的教程，这篇博客是记录自己学习过程，也是把遇到的问题记录下来，督促自己学习。
同时借鉴了👇这篇文章，也写的很好！

https://www.jianshu.com/p/8481e34c86c2

首先分析目标网站，搜索‘街拍美图’

在这里插入图片描述
通过查找，我们发现详情页信息是再XHR里，同时页面下滑，左侧会增加URL。
且只是url中的offset值改变，得出通过改变offset的值即可以遍历多个链接。
打开上图中data—0，我们发现详情页的名称即为‘title’的值，我们要得到title，只需解析，然后直接get_text(),就可以得到名称内容。在这里插入图片描述
同时看到‘article_url’，点击进入这个详情页查看URL,通过查看多个，得出详情页的链接即为‘article_url’的值，解析后直接get即可！
开始正式写程序；首先获取主页面，需要注意的是，要加入headers和cookie，否则会报错，params为请求的一些参数，再浏览器的headers可以找到。（当出现返回异常时，可以多看看headers和cookie，我再写的时候有出现过返回异常，改headers后就好了）传进去的参数offset是控制爬取的页面多少，keyword是控制爬取的内容（本次是‘街拍美图’）

def get_url(offset, keyword):#获取主页面
    headers = {
   
        'user - agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36',
        'cookie': 'tt_webid=6756552095103878663; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6756552095103878663; csrftoken=e3986e027ddb4e2f9307dbd024811241; s_v_web_id=k6n06g6v_lbexStV5_3Ntg_4wFE_B0ts_axcGWZuVpJm4; ttcid=007008aee03e463eb9caa0e440e9afba93; __tasessionId=qxl5qt72h1581735000822; tt_scid=a-NdD3V6Hzc21bo3bybzGZtDTFp2jVZ-NcUgYmlEYuwxvVqjZZCmAT0cyZUlplB696ea',
    }
    params = {
   
        'aid': 24,
        'app_name': 'web_search',
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': 20,
        'en_qc': 1,
        'cur_tab': 1,
        'from': 'search_tab',
        'pd': 'synthesis',
        'timestamp': 158173512669,
    }
    url = "https://www.toutiao.com/api/search/content/?" + urlencode(params)
    try:
        r = requests.get(url, headers=headers)
        if r.status_code == 200:
            res = json.loads(r.text)#json.loads将json格式数据转换为字典
            return res
    except RequestException:
        print('访问错误')
        return None

提取详情页URL，使用yield返回生成器。因为’article_url’是在’data’中，而’data’是我们res的一个键，同时因为在获取主页面时我们返回的是字典类型（用json.loads转化过），所以我们直接get即可。

def parse_page_index(res):#提取详情页url
    if res:#判断返回对象是否为空
        if 'data' in res.keys():
            for item in res.get('data'):
                if 'article_url' in item:
                    yield item.get('article_url')

获取详情页，同样需要加入headers和cookie。这一步我们即可获得所有的详情页URL，到这里全部任务已经完成35%了！

def get_page_index(url):#获取详情页
    headers = {
   
        'cookie': 'tt_webid=6756552095103878663; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6756552095103878663; csrftoken=e3986e027ddb4e2f9307dbd024811241; __tasessionId=fme29ihts1580901093483; s_v_web_id=k69b121k_igiqNCx4_57vq_40DG_BVQV_JdrkGEwFqmKB',
        <

最低0.47元/天解锁文章

sgzsnake23

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取今日头条街拍美图（2020.2月新版）

最近再学习python爬虫，有幸看到崔庆才大大的教程，这篇博客是记录自己学习过程，也是把遇到的问题记录下来，督促自己学习。同时借鉴了????这篇文章，也写的很好！https://www.jianshu.com/p/8481e34c86c2首先分析目标网站，搜索‘街拍美图’通过查找，我们发现详情页信息是再XHR里，同时页面下滑，左侧会增加URL。且只是url中的offset值改变，得出...
复制链接

扫一扫