自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 多进程操作mysql,实现快速写入千万数据

MySQL写入优化思路MySQL的写入操作语句:sql = 'insert into table_name(column_name) values()'为了使插入速度变快,我们可以实行批量插入:sql = 'insert into table_name(column_name) values(v1),(v2),(v3),(v4),(v5);'在python里就是拼接sql语句实现批量插入。当然,python还有一种情景可以提高插入速度,那就是通过批量提交的方法,因为python操作MySQL是通过游标

2021-07-27 10:48:32 1815

原创 多线程爬取知乎答案中的高清图片(知乎钓鱼图片真的很多,,,,),使用jupyter可以直接运行

'''需要用到的'''import requestsimport reimport jsonimport timefrom multiprocessing.dummy import Poolheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.

2021-07-11 20:05:41 269 1

原创 解决某些网站(canvas这个图片网站)使用requests爬取时403报错的问题

某些网站在你的参数设置完备时仍会出现403比如canvas这个图片网站,import requestsweburl = "https://www.canva.cn/_ajax/marketplace2/media/MADVhltOAvg?version=1&qualities=PRINT"webheader = { 'referer': 'https://www.canva.com/', 'Accept': 'text/html, application/xhtml+xml,

2021-06-17 21:26:46 1381 1

原创 微博高清图片爬取

微博高清图简单爬取用到的库由于高清图需要登陆浏览,所以需要cookie具体操作具体代码用到的库requests,json由于高清图需要登陆浏览,所以需要cookie根据我的测试,cookie只需要一项,就是sub=。。。。。。。。那一项,具体操作首先,打开微博,搜索你想下载图片的博主,然后点击他的相册,调出调试模式,然后点击一下第一张图片,在右方network选项的xhr分支里面会加载几个新出现的对象。我们打开带有popview字样的链接,发现其内容为图片列表,含有大约二十个图片的关键信息

2021-03-17 16:15:13 2995 2

原创 matplotlib的字体设置爬坑(坐标字体)

涉及到中文时font与fontproperties的区别import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontProperties#首先导入依赖库然后简单地画一张图:font=FontProperties(fname=r"C:\Windows\Fonts\FZSTK.TTF",size=24)fig, ax = plt.subplots(1,1,figsize=(8,8

2020-10-15 11:57:37 2134 2

原创 百度图片api获取(包含获取原网址)

进入百度图片,搜索关键字比如搜索关键词“赵丽颖”——打开调制模式(F12)众所周知,一般图片的url以json列表方式进行输出,所以我们直接去XHR模块去查找json列表。(刚刷新时没有数据出现,这时我们只需要滚动滚轮即可获得数据更新)如下图:打开右方acjson连接进入预览,我们可以发现列表已经出现,这个json的网址也很于一四,经过反复测试,发现规律如下:https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&

2020-08-31 21:43:04 4849 1

原创 记录一次成功爬取知音漫客漫画的辛酸路程(js逆向解析)

一,首先漫画的搜索,漫画每章节的标题,每章节的图片数量,这些东西都是最基础的数据,直接使用get方法就可以得到。二,对于付费章节来说,每张图片的src链接都是使用js加密的。熟悉js的应该可以很简单就解析出来(本人完全小白,花费了很长时间解析,主要是走了很多弯路)。以下就是js解析的过程。(1)获取章节源码:1,使用requests.get()直接获取,然后分析获取到的数据,我们发现:如...

2019-08-12 14:44:07 1372 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除