python3.x 爬取今日头条

python爬虫练习:
爬取今日头条街拍的图片。页面:http://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D
通过对页面的分析可以发现今日头条页面是通过ajax进行加载内容的。
Q:如何发现是使用的ajax呢?
A:当我们下拉页面的时候页面并没有进行刷新,但有新的数据加载
Q:如何获取ajax数据呢?
A:以今日头条为例,使用Chrome浏览器,审查页面-Preserve log-Network-XHR下拉加载时会发现一个数据包,这个数据包就是我们需要的数据
Q:这个数据拿到了但是怎么使用呢?
A:首先我们需要知道ajax是一个异步请求方式,我们使用requests模拟请求就好了

目标:抓取数据后保存到MongoDB。
使用到的知识:数据抓取 使用到requests、bs4、正则表达式,MongoDB使用python中的第三方库pymongo,小白使用的ide是pycharm,可以下载第三方插件可视化mongodb数据库

代码如下:并未进行优化。
优化思路:抓取url进行清洗(如广告、视频)。抓取到的内容去重……

import json
import re
import os
from multiprocessing import Pool
import pymongo
from bs4 import BeautifulSoup
import requests
from requests import RequestException
from urllib.parse import urlencode

client = pymongo.MongoClient(‘localhost’,27017)
toutiaodb = client[‘toutiaodb’]

def get_page_index(offset, keyword):
”’
模拟ajax请求获取索引页的url
:param offset: 页数
:param keyword: 搜索内容
:return:索引页的url
”’
data={
‘offset’: offset,
‘format’: ‘json’,
‘keyword’: keyword,
‘autoload’: ‘true’,
‘count’: 20,
‘cur_tab’: 1,
}
url = ‘http://www.toutiao.com/search_content/?’+ urlencode(data)
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except RequestException:
print(‘索引页有错误’)
return None

def parse_page_index(html):
”’
读取索引页数据获取详情页的url
:param html:
:return: 详情页的url
”’
data = json.loads(html)
if data and ‘data’ in data.keys():
for item in data.get(‘data’):
yield item.get(‘article_url’)

def get_page_detail(url):
”’
根据详情页url返回详情页数据
:param url:
:return: 解析后的详情页数据
”’
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except RequestException:
print(‘详情页有错误’,url)
return None

import time
def parse_page_tetail(html,url):
”’
读取详情页数据
:param html:
:return: 标题 url 和图片列表组成的字典
”’
time.sleep(1)
soup = BeautifulSoup(html,’html.parser’)
title = str(soup.select(‘title’)[0])
imgs_compile = re.compile(r’

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值