爬虫
suxiaorui
孤独与我 随风相伴
展开
-
爬虫-大学教务系统选修课抢课
今天又是一学期的选修课抢课的开始,早上起来选完课想用python来实现模拟网页抢课。这里我们用的是python3.6,抓包工具charles4.2.8。首先打开校园官网,进入教务管理系统,可以看到下面这个登录界面。这里我们首先要获取这个验证码图片,那么该怎么获取呢?我们按F12打开开发者工具,然后点击这个验证码图片,我们就可以抓取到这个验证码网址很轻松的就拿到了验证码...原创 2019-04-20 22:18:44 · 15989 阅读 · 5 评论 -
爬虫的概述
1.爬虫是什么呢?爬虫是指按照一定的规则,自动地抓取网络数据,再对数据进行解析复用的程序或者脚本。2.爬虫的分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep ...原创 2019-04-17 14:44:15 · 2029 阅读 · 0 评论 -
爬虫-urllib简介urlopen函数重要参数学习
1.urllib简介urllib是Python中内置的最基本的网络请求库。提供直接发送HTTP请求,接受处理HTTP响应的API。2.urllib中包含模块2.1 urllib.request 是求请模块,urllib.response 是响应处理,它在urllib.request模块中包含,用于处理响应,不用我们单独处理。 2.2 urllib.parse 是url解析模块 ...原创 2019-04-17 15:31:18 · 3846 阅读 · 0 评论 -
爬虫-urllib-bytes和str互相转换
bytes是什么呢?负责二进制字节序列的形式记录所需记录的对象(字符串、图片、音频、视频等)其值形式是b'oooo' 其中'oooo'中的每一个o,是一个十六进制的字符串(2位)每个十六进制字符串代表一个字节为什么要bytes和str互相转换呢?因为urlopen()函数中data参数要传送的数据是bytes类型,以及我们接受的数据类型也是bytes,所以我们要学会怎么转换才...原创 2019-04-17 15:48:01 · 1464 阅读 · 0 评论 -
爬虫-urllib.request下载文件函数urlretrieve()
下载文件函数urlretrieve()作用:自动的将求请地址得到的响应体保存到指定文件中函数原型:urlretrieve(url, filename=None, reporthook=None, data=None)参数含义:url:资源地址filename:文件本地保存路径reporthook:回调函数,每下载一块数据到本地,都会调用此函数。reporthook(bloc...原创 2019-04-26 15:48:46 · 2544 阅读 · 0 评论 -
爬虫-利用requests抓取网页源码中文乱码问题
问题简述:刚刚想抓取小说网的唐家三少的斗罗大陆小说,跑出来结果发现中文全是乱码。代码如下:import requestsurl = "https://www.biqukan.net/book/121650/43344227.html"requests.packages.urllib3.disable_warnings()resp = requests.get(url,veri...原创 2019-04-22 20:45:53 · 4198 阅读 · 0 评论 -
爬虫-用xpath爬取豆瓣图书的短评
Xpath的安装:1.使用pip安装 $ pip install lxml2.下载whl文件 $ pip install "文件名"Xpath的使用导入lxml——>返回xml结构——>寻找数据from lxml import etreeurl = ""s = etree.HTML(url)print(s.xpath())1.获取文本内...原创 2019-04-25 11:27:41 · 2245 阅读 · 0 评论