python
帅帅的橙子
在每天苦逼的写代码中,成功的从菜鸟变成了老菜鸟
展开
-
中国裁判文书网(2020最新版)
1.序言因业务需要去爬取裁判文书网,查看了网上的诸多教程发现裁判文书网的反爬更新频率很高,但是从19年8月份更新之后再也没有新的更新了。估计是现在的反爬已经足够使用了,裁判文书网的反爬主要有四种。听我一一道来2.正文裁判文书网的反爬主要分为两部分,第一部分是请求列表页的data内有三个加密的参数:(1).pageid(2).ciphertext(3).__RequestVerificationToken这三个参数的加密方式其实很容易就能找到,通过chrome的network的全局原创 2020-06-19 16:44:47 · 8972 阅读 · 35 评论 -
python爬虫 爬取图片并保存
今天爬了美丽说网站首页的图片 可是等把图片的url获取之后却不知道怎么保存了。。(感觉自己当时脑子短路了)然后自己上网查看了一些方法。。1.网上有说 urllib模块中有个urlretrieve函数可以直接下载保存,于是我天真的写了urllib.urlretrieve(pic,fliename)可是pycharm报错了 说urllib没有urlretrieve函数,瞬间懵了。2.之后自...原创 2018-09-19 11:16:44 · 2298 阅读 · 0 评论 -
列表推导式写99乘法表
Python——九九乘法表list1=[1,2,3,4,5,6,7,8,9]list2=[1,2,3,4,5,6,7,8,9]result=[str (i) + '*' + str (a) + '=' +str (a*i) for i in list1 for a in list2 if a>=i]print(result)原创 2017-12-15 19:19:11 · 5282 阅读 · 1 评论 -
python———两个栈实现一个队列
1.先说一下栈和队列的定义(自己的理解不做深入的解析):栈是一个只能在一端进行删除和插入操作的线性表,它是一个先进后出。队列也是一个线性表,但是其只能在表的前端进行删除操作,在表的后端进行插入操作,它是一个先进先出。2.下面就用python代码来实现两个栈实现一个队列功能!class Solution: def __init__(self): #初始化并定义两个...原创 2018-10-09 16:40:35 · 1216 阅读 · 0 评论 -
requests多进程爬取数据
好长时间没有更新,今天更新一次!!。因为工作原因,一直在使用pyspider框架有半年没有用过scrapy框架了,知识点也忘记了很多,今天写了一个多线程爬取APP的图片时间的脚本,供大家参考!import re, random, time, json, requests, datetime, osfrom pyquery import PyQuery as pqfrom multip...原创 2019-01-21 15:56:02 · 1786 阅读 · 1 评论 -
python scrapy 请求post的url时报 ValueError: not enough values to unpack(expected2,got 1)
当使用scrpay框架去写爬虫的时候会遇到post请求方式的url,一般遇到这种url会添加headers与data。往常data会要求有多种格式,比如字符串或者json格式。因为使用scrapy框架请求不会像requests模块那样。我们需要使用scrapy内置的请求方式。往往这就导致了data格式出问题。之前爬取就遇到了一次:看到这个错误很是懵13,因为从来没遇到过 而且报错的行是sc...原创 2019-07-17 15:25:25 · 1763 阅读 · 3 评论