如何利用python爬取网易新闻

下载地址

  • chromedriver:https://code.google.com/p/chromedriver/downloads/list

  • Firefox 的驱动 geckodriver:https://github.com/mozilla/geckodriver/releases/

  • IE 的驱动 IEdrive:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

了解网页

网页绚丽多彩,美轮美奂,如同一幅水彩画。爬取数据首先需要知道所需要抓取的数据是怎样的呈现的,就像学作一幅画,开始前你要知道这幅画是用什么画出来的,铅笔还是水彩笔…可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式:

  • HTML

  • JSON

HTML是用来描述网页的一种语言

JSON是一种轻量级的数据交换格式

爬取网页信息其实就是向网页提出请求,服务器就会将数据反馈给你

2. 获得动态加载源码


导入需要的用的模块和库:

from bs4 import BeautifulSoup

import time

import def_text_save as dts

import def_get_data as dgd

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

获取网页信息需要发送请求,requests 能帮我们很好的完成这件事,但是仔细观察发现网易新闻是动态加载,requests 返回的是即时信息,网页部分稍后加载出来的数据没有返回,这种情况 selenium 能够帮助我们得到更多的数据,我们将 selenium 理解为一个自动化测试工具就好,Se

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值