![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
菜鸡一枚____
少上线 消息很少会回复 谢谢!
展开
-
Python爬虫:按照需求下载煎蛋网妹子图
煎蛋网的图片的地址被加密过,但是我们会发现所加密的形式是base64的方式加密的,那么我们只要用base64解码就可以得到图片的原地址了。然后经过观察发现,网站上的每一页的变化都是通过url的方式直接变化,最明显的就是url的变化都是根据页数来改变的。。。所以我们只要爬取网站的url就好啦(手动滑稽下面是代码:import requestsimport bs4import base64...原创 2018-11-23 23:16:49 · 317 阅读 · 0 评论 -
爬取煎蛋网妹子图片
import requestsimport bs4import base64import urllib.requestnum_photo = 1def download_photo(url , num ): global num_photo response = urllib.request.urlopen(url) cat = response.read() with ...原创 2018-11-24 00:09:26 · 1947 阅读 · 0 评论 -
爬取正方教务系统课程表
被一个学长布置下的任务…有些地方可能不够完整…思路: 首先你需要完成登录操作:(1) 首先根据教务系统网站的审查元素, 发现了一个验证码的网址:http://210.40.2.253:8888/(fw5xjvfovnf3f4zg1ikero2a)/CheckCode.aspx进去后你会发现,这里面的验证码是会随着时间的变化而变化的,那这样子该怎么办呢?(果断百度一波!!)然后巴拉巴拉… ...原创 2019-01-23 19:57:50 · 3646 阅读 · 0 评论 -
爬取起点小说网免费小说
python 3.7设置了0.5秒存入一个章节所以有点慢运行的时候在py文件的同级目录下创建目标的小说文件夹在文件夹中写入小说章节import requestsfrom bs4 import *from lxml import etreeimport osimport timeres = requests.session()head = {}book_name = []b...原创 2019-02-22 00:02:03 · 1034 阅读 · 0 评论 -
爬取百度top10热搜
import requestsfrom lxml import etreehead = {}url = "http://top.baidu.com/buzz?b=341&fr=topindex"head["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:63.0) Gecko/20100101 Firefox/63....原创 2019-03-01 00:33:24 · 3162 阅读 · 0 评论