python爬网易新闻_python3 爬虫实战之爬取网易新闻APP端

本文介绍了如何使用Python3和Scrapy爬取网易新闻APP的内容。通过模拟翻页和解析JSON数据,提取新闻标题、时间、来源及详细链接,并展示了一部分代码实现。
摘要由CSDN通过智能技术生成

(一)使用工具

这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用

image.png

(二)爬虫操作步骤:

百度 网易新闻并选择

步骤一:

image.png

步骤二:

image.png

步骤三:

image.png

步骤四:

image.png

最后一步:

image.png

注意点:

(1)网易新闻类型,一共是下面的几种:

{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}

(2)新闻翻页动作:

从0-10 ------> 10-10

步数为10,0起步

我们试着从0页开始获取一下(浏览器输入一下):

image.png

很好的json,有没有。下面开始coding,不多说,直接看代码。

(三) 代码编写部分:

使用环境:win10 python3 scrapy

这里给出了spider文件部分

# -*- coding: utf-8 -*-

# @Time : 2018/5/23 13:56

# @Author : 蛇崽

# @Email : 643435675@QQ.com

# @File : wangyi3g.py

import json

import re

import scrapy

from bs4 import BeautifulSoup

class Wangyi3GSpider(scrapy.Spider):

name = 'wangyi3g'

allowed_domains = ['3g.163.com']

start_urls = ['http://3g.163.com/touch/news/']

baseurl = 'http://3g.163.com/touch/reconstruct/article/list/BD29LPUBwangning/{}-10.html'

def parse(self, response):

# 10 20

for page in range(0,80,10):

jsonurl = self.baseurl.format(page)

yield scrapy.Request(jsonurl,callback=self.parse_li_json)

def parse_li_json(self,response):

res = response.body.decode('utf-8')

print(res)

res = str(res).replace('artiList(','')

res = res.replace(')','')

j = json.loads(res)

datas = j['BD29LPUBwangning']

print(datas)

for data in datas:

title = data['title']

ptime = data['ptime']

url = data['url']

source = data['source']

print(title,ptime,url,source)

if url:

yield scrapy.Request(url,callback=self.parse_detail)

def parse_detail(self,response):

soup = BeautifulSoup(response.body,'lxml')

content = soup.find('div','content')

image_urls = re.findall(r'data-src="(.*?)"', str(content))

# print(image_urls)

image.png

以上就是网易新闻APP爬虫代码的实现,更多技术学习交流可查看主页加群。我们一起学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值