爬虫
爬虫
fff2zrx
这个作者很懒,什么都没留下…
展开
-
python爬取拉勾网招聘信息(字典形式解析json)
前言:一个课的爬虫作业,备份到小博客一下,这个作业了解到了如何构造cookie一、拉勾网数据爬取思路和遇到的反爬机制本文想通过爬取拉勾网上的关于python的招聘信息来分析一下python岗位大体情况,在输入框中键入python,F12打开开发者模式,并点击搜索发现这个XHR返回的信息就是我们所需要的,观察其Headers发现向服务器发送的是post请求,信息包括三个参...原创 2019-10-10 23:41:48 · 887 阅读 · 1 评论 -
python爬虫之下载盗墓笔记(bs4解析HTML)
前言:最近一个作业用到爬虫,我爬取的网站是拉勾网,返回的是json格式,我就用字典的形式获取数据了这次顺便把bs4解析返回的HTML格式也熟悉一下爬了一个简单的网站:http://www.seputu.com学习了下https://www.cnblogs.com/insane-Mr-Li/p/9117005.html的内容,自己动手开始搞了,基本原理差不多又想起盗墓笔记无数未填...原创 2019-10-02 22:19:41 · 535 阅读 · 0 评论 -
用10行python代码获取全国城市交通生活圈
今天在网上冲浪看到一个很花哨的数据,全国各城市主要商圈从早上6点到晚上10点的20min,30min,45min,60min,90min生活圈轮廓。1 获取思路按下F12,点击淮海路可以看到出现一个网站,他就是我们要找的接口内容是通过get请求直接获取的,接口是https://trp.autonavi.com/ajax/life/circle.do?districtId=B00156EVQJ&dir=0&timeIndex=8点击网页上的目的地,发现接口里dir变成了1..原创 2020-12-17 20:02:52 · 547 阅读 · 2 评论 -
Python爬虫之爬取网站图片
暑假在家练科三的时候无聊突然想重拾Python,之前简单的学了学Python2的语法,但以后主流是Python3,就下了Python3,pycharm对着别人的教程试了试爬虫,我之前python2的时候爬虫主要用urllib,urllib2这两个,然后是通过正则匹配图片网址,此次python3主要用requests,解析图片网址主要用beautiful soup,几日下来算是可以基本完成爬取图片功...原创 2020-02-24 12:45:21 · 23556 阅读 · 6 评论 -
Python3爬虫之模拟post登陆及get登陆
一、模拟登陆需要账号,密码的网址一些不需要登陆的网址操作已经试过了,这次来用Python尝试需要登陆的网址,来利用cookie模拟登陆由于我们教务系统有验证码偏困难一点,故挑了个软柿子捏,赛氪,https://www.saikr.com我用的是火狐浏览器自带的F12开发者工具,打开网址输入账号,密码,登陆,如图可以看到捕捉到很多post和get请求,第一个post请求就是我们提...原创 2018-10-19 17:56:05 · 3438 阅读 · 1 评论 -
Python3调用百度API解析经纬度为地址
由于需要将一系列经纬度坐标转换为地址,定位到具体某个街道或者道路,尝试调用百度地图的API,发现正好有个全球逆地理编码的API可以调用: 在服务文档里看到只有location和ak为必须的请求参数:可以发现服务文档里给的地址 http://api.map.baidu.com/geocoder/v2/?callback=renderReverse&location=...原创 2018-09-03 10:05:32 · 3770 阅读 · 1 评论 -
Python3正则匹配
正则匹配通俗地来说就是按照模板从给定的字符串里找出想要的内容(按图索骥,看图找蛤蟆),这个模板即为正则表达式导读python的正则表达式功能需要调用re模块,re模块中提供了不少有用的函数,比如:compile函数、match函数、search函数、findall函数、finditer函数、split函数、sub函数、subn函数等.一、正则函数1. re.match函数...转载 2020-02-21 19:47:06 · 2200 阅读 · 0 评论 -
2019年研究生数学建模E题加拿大站点数据批量下载
题里给的下载链接是这个,打开是下图可以看到一共8772个站点的数据,每个下载需要点击两次,一个上面的Go,一个下图的download全点下来,这不是要累死,于是我想到了亲爱的python点击download后,可以看到真正的下载链接而且经过尝试,Year和Month都不是关键参数,不同的年和月,下载下来的文件是一样的,所以关键就在stationID上,我们只要把8...原创 2019-09-25 14:56:21 · 4658 阅读 · 13 评论 -
用python检索tj大学高等讲堂并发送邮件通知空位
前言:故事是这样的,该学校要求听8次校级和院级讲座,但是大家现在热情很高,讲座供不应求,跟春节抢火车票有一拼,看到一个师兄弄了一个代码自动通知微信群,于是也想玩一玩,正好之前才学习完发邮件的,我就用邮件通知了。1.技术路线登录高等讲堂网页版 得到讲座信息 判断有无余位 若有余位则发送邮件 循环执行上述操作2.查询是否有讲座有余位def findlecture(level,p...原创 2019-09-16 20:17:42 · 651 阅读 · 0 评论