python3.x 爬取今日头条

最新推荐文章于 2024-06-27 18:14:28 发布

NightCharm

最新推荐文章于 2024-06-27 18:14:28 发布

阅读量1.7k

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/NightCharm/article/details/78377902

版权

Python 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

python爬虫练习：
爬取今日头条街拍的图片。页面：http://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D
通过对页面的分析可以发现今日头条页面是通过ajax进行加载内容的。
Q:如何发现是使用的ajax呢？
A:当我们下拉页面的时候页面并没有进行刷新，但有新的数据加载
Q:如何获取ajax数据呢？
A:以今日头条为例，使用Chrome浏览器，审查页面-Preserve log-Network-XHR下拉加载时会发现一个数据包，这个数据包就是我们需要的数据
Q:这个数据拿到了但是怎么使用呢？
A:首先我们需要知道ajax是一个异步请求方式，我们使用requests模拟请求就好了

目标：抓取数据后保存到MongoDB。
使用到的知识：数据抓取使用到requests、bs4、正则表达式，MongoDB使用python中的第三方库pymongo，小白使用的ide是pycharm，可以下载第三方插件可视化mongodb数据库

代码如下：并未进行优化。
优化思路：抓取url进行清洗（如广告、视频）。抓取到的内容去重……

import json
import re
import os
from multiprocessing import Pool
import pymongo
from bs4 import BeautifulSoup
import requests
from requests import RequestException
from urllib.parse import urlencode

client = pymongo.MongoClient(‘localhost’,27017)
toutiaodb = client[‘toutiaodb’]

def get_page_index(offset, keyword):
”’
模拟ajax请求获取索引页的url
:param offset: 页数
:param keyword: 搜索内容
:return:索引页的url
”’
data={
‘offset’: offset,
‘format’: ‘json’,
‘keyword’: keyword,
‘autoload’: ‘true’,
‘count’: 20,
‘cur_tab’: 1,
}
url = ‘http://www.toutiao.com/search_content/?’+ urlencode(data)
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except RequestException:
print(‘索引页有错误’)
return None

def parse_page_index(html):
”’
读取索引页数据获取详情页的url
:param html:
:return: 详情页的url
”’
data = json.loads(html)
if data and ‘data’ in data.keys():
for item in data.get(‘data’):
yield item.get(‘article_url’)

def get_page_detail(url):
”’
根据详情页url返回详情页数据
:param url:
:return: 解析后的详情页数据
”’
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except RequestException:
print(‘详情页有错误’,url)
return None

import time
def parse_page_tetail(html,url):
”’
读取详情页数据
:param html:
:return: 标题 url 和图片列表组成的字典
”’
time.sleep(1)
soup = BeautifulSoup(html,’html.parser’)
title = str(soup.select(‘title’)[0])
imgs_compile = re.compile(r’

NightCharm

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python3.x 爬取今日头条

python爬虫练习：爬取今日头条街拍的图片。页面：http://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D 通过对页面的分析可以发现今日头条页面是通过ajax进行加载内容的。 Q:如何发现是使用的ajax呢？ A:当我们下拉页面的时候页面并没有进行刷新，但有新的数据加载 Q:如何获取ajax数据呢？ A:以今日头条为例，使用C
复制链接

扫一扫

专栏目录