anqwg40222-CSDN博客

转载 day04 爬取豌豆荚

今日内容:爬取豌豆荚: 1.访问游戏主页 https://www.wandoujia.com/category/6001 2.点击查看更多，观察network内的请求 - 请求url page2: https://www.wandoujia.com/wdjweb/api/category/mo...

2019-07-04 10:26:00 118

转载 day03 Selenium剩余功能的实现和BeautifulSoup4使用

昨日回顾: 一爬取豆瓣电音TOP250 1.爬取电影页 2.解析提取电影信息 3.保存数据二 Selenium请求库驱动浏览器往目标网站发送请求，获取响应数据。 - 不需要分析复杂的通信流程 - 执行js代码 - 获取动态数据三 selenium使用 ...

2019-07-03 16:37:00 164

转载 day02 requests请求库爬取豆瓣电影信息+selenium请求库

一、 requests请求库爬取豆瓣电影信息　　— 请求url　　　　http://movie.douban.com/top250　　— 请求方式　　　　GET　　— 请求头　　　　user-agent　　　 cookies老样子，通过谷歌浏览器在top250页面检查，找到我们要的信息。通过三步，完成整个过程：附上完整代码："""...

2019-07-02 15:29:00 495

转载 day01 初见python爬虫之“爬校花网”和“自动登录github”

首先我们来解释一下几个概念：1、什么是爬虫？　　爬取数据。2、什么是互联网？　　由一堆网络设备、把一台台的计算机互联到一起称之为互联网。3、互联网建立的目的：　　数据的传递与数据的共享。4、什么是数据?列如：电商平台的商品信息（京东、淘宝、亚马逊）租房平台的房源信息（链家、自如）股票证券的投资信息（东方财富、雪球网）12306的票务信息（抢...

2019-07-01 16:53:00 1011

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人