目标:爬取学校的图书借阅记录,不需要使用 seleinum
工具:PyCharm(代码实现)
使用的库:1.requests库
2.re库(正则表达式库)
3.pandas库 (这个库的使用是请教了学长,因为我比较水,还不会)
三个库的使用目的:1:发送请求,抓取网页源代码
2:re.findall()搜索并且返回匹配的目标(列表形式)
3:整理爬到的数据,看起来舒服
——————————————————————————————————————————————————————
下面进入正文
1.首先我们要爬取数据,要弄明白所要爬取的网页的请求类型:用浏览器打开想要爬取的网址,F12键进入开发者模式,就借用一哈他的反馈信息就可以看见想要的一系列数据,如下图。这是想要爬取的页面
- User-Agent: 用户代理,说白了爬虫嘛,你肯定要骗服务器
- Cookie: 这个是最重要的东西,就像身份证明一样是人必不可少的东西一样,