网络爬虫
记录爬虫案例,巩固相关知识
棒子胡豆
这个作者很懒,什么都没留下…
展开
-
爬取豆瓣top250电影
爬取思路:1、使用selenium来获取页面源码,实现翻页功能。2、获取页面源码后可以获取每个电影对应页面的url。3、然后请求电影页面的url信息,将需要的保存起来即可。code:import requestsfrom selenium import webdriver from bs4 import BeautifulSoupimport osimport time class Spide_douban(): def __init__(self): self原创 2021-10-30 20:23:39 · 424 阅读 · 0 评论 -
爬虫基础(案例:爬取链家网,附:BeautifulSoup中常用的一些操作)
soup.find("ul")返回首个标签为ul的标签内容。类型为soup,仍然可以使用soup类函数对返回内容进行处理。soup.find("ul",attrs = {"class":"ul2"}) 返回标签为ul,且属性class = ul2的标签内容。即添加attrs进行过滤,返回满足要求的首个标签。print(soup.findAll("ul",attrs = {"class":"content"}))soup.findAll 默认返回所有内容,类型是list,list中的每个元素都是原创 2021-10-30 17:16:10 · 639 阅读 · 0 评论 -
爬虫基础(案例:北京新发地信息爬取)
爬取思路:1、找到蔬菜信息页面,然后进行翻页,发现页面的url没有发生改变,所有蔬菜信息是通过接口数据动态获取的,是动态数据。2、进行chrom调试抓包,找到每个页面信息所在的url3、 发现每个信息的url都相同,post请求,form data不同。4、通过修改提交的data来获取不同页面的蔬菜信息。import requestsimport jsonimport csvfile = open("C://Users//孤桥//Desktop//项目//PekingXFD//vegeta原创 2021-10-30 16:54:43 · 2247 阅读 · 1 评论 -
爬虫基础(案例:爬取英雄联盟全皮肤)
爬取思路:1、首先分析是静态数据还是动态数据,HTML源码中找不到英雄页面的信息,所以是静态数据。2、chrom调试抓包,找到皮肤信息所在的URL ,这里第一个英雄皮肤所在的URL为https://game.gtimg.cn/images/lol/act/img/js/hero/1.js3、直接通过get请求来获取包含目的信息的json数据4、从json数据中提取各个皮肤的url以及名称并保存下来。5、到此为止,单个英雄的皮肤爬取成功。6、分析发现不同英雄页面的url之间只是最后的编号不同,再次原创 2021-10-30 16:44:39 · 1421 阅读 · 1 评论 -
爬虫基础(案例:爬取17K小说个人书架信息)
爬取思路:1、进入17K官网,(先不要登录),然后点击书架,这时会弹出登录页面。2、进行抓包,然后输入登录的账号密码(请勿使用第三方登录)3、登录成功后,找到名称为login的包,这样就得到了登录的URL,Form data为请求时需要提交的信息。4、使用post请求该URL,提交的信息data为Form data中的信息。5、登录成功后,可以获得该URL的cookie信息,找到其中的accessToken6、找到书架书籍所在的链接,使用get请求,请求头中要带有刚刚获取的accessToken原创 2021-10-30 16:32:43 · 1611 阅读 · 8 评论 -
爬虫基础(基础知识)
1、爬虫介绍爬虫是一种按照一定规则,自动地抓取万维网信息的程序或者脚本。通用网络爬虫又称为全网网络爬虫,爬取对象是从一些种子URL扩展到整个WEB,各种搜索引擎是一个典型的例子。聚焦(主题)网络爬虫指有目的性的进行爬虫,根据需求按需采集。深度网络爬虫:有些信息需要提交参数才可以获取隐藏数据。增量式网络爬虫:对曾经爬取过的网站但是又更新的网站进行爬取,可以在一定程度上保证爬取的页面是尽可能新的页面爬取得到的数据的分类有:用户产生的数据:如WeChat、QQ等;政府的数据:中国政府数据网;数据公司管原创 2021-10-30 16:10:02 · 695 阅读 · 0 评论