爬虫
文章平均质量分 77
苦瓜亦叫半生瓜
这个作者很懒,什么都没留下…
展开
-
Python爬虫笔记之用BeautifulSoup及requests库爬取
这次要爬取的是一个壁纸网站wallhaven,里面有很多用户上传的高清壁纸分享。点击进去会出现一个搜索页面,输入dota2,这就得到了我们要爬取的第一个url:”https://alpha.wallhaven.cc/search?q=dota2&search_image=&“。没错,今天的任务是爬取的是上面dota2专题的所有高清壁纸。 点进页面之后照常往下拉,想看看是否有那种点击翻页之类的东原创 2017-09-03 21:37:01 · 1718 阅读 · 0 评论 -
python爬虫笔记之用re及urllib库爬取
以顶点小说网为例,试着爬取网站上的武侠修真专题的全部小说。 “不积跬步,无以至千里”。爬取全部小说先从一本小说开始,以小说《大泼猴》为例。首先,试着爬取小说中的一个章节:import refrom urllib import request# Python3自带的基本库url = "http://www.x23us.com/html/51/51695/20781310.html"# 要爬取的原创 2017-08-26 09:22:41 · 787 阅读 · 0 评论 -
Python爬虫笔记之模拟登录
今天呢,我们来玩一下模拟登录.顾名思义,就是模拟浏览器提交信息登录网站.因为有些数据必须在登录之后才能获取,最简单的例如我们校园网上的选课信息啊,你总要先登录上去才能得到吧.就以吉大选课系统为例,来尝试一下模拟登录.(PS:这个网站只有连上吉大校园网才能登录的哦!!!).首先我们先明确我们的目标及步骤,然后就可以开始了!伪装浏览器头部信息用抓包工具分析,构造提交表单保存cookies,抓取信息原创 2017-09-09 14:41:26 · 729 阅读 · 0 评论