那年葬下的梦-CSDN博客

原创多进程操作mysql，实现快速写入千万数据

MySQL写入优化思路MySQL的写入操作语句：sql = 'insert into table_name(column_name) values()'为了使插入速度变快，我们可以实行批量插入：sql = 'insert into table_name(column_name) values(v1),(v2),(v3),(v4),(v5);'在python里就是拼接sql语句实现批量插入。当然，python还有一种情景可以提高插入速度，那就是通过批量提交的方法，因为python操作MySQL是通过游标

2021-07-27 10:48:32 1823

原创多线程爬取知乎答案中的高清图片（知乎钓鱼图片真的很多，，，，)，使用jupyter可以直接运行

'''需要用到的'''import requestsimport reimport jsonimport timefrom multiprocessing.dummy import Poolheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.

2021-07-11 20:05:41 273 1

原创解决某些网站（canvas这个图片网站）使用requests爬取时403报错的问题

某些网站在你的参数设置完备时仍会出现403比如canvas这个图片网站，import requestsweburl = "https://www.canva.cn/_ajax/marketplace2/media/MADVhltOAvg?version=1&qualities=PRINT"webheader = { 'referer': 'https://www.canva.com/', 'Accept': 'text/html, application/xhtml+xml,

2021-06-17 21:26:46 1382 1

原创微博高清图片爬取

微博高清图简单爬取用到的库由于高清图需要登陆浏览，所以需要cookie具体操作具体代码用到的库requests，json由于高清图需要登陆浏览，所以需要cookie根据我的测试，cookie只需要一项，就是sub=。。。。。。。。那一项，具体操作首先，打开微博，搜索你想下载图片的博主，然后点击他的相册，调出调试模式，然后点击一下第一张图片，在右方network选项的xhr分支里面会加载几个新出现的对象。我们打开带有popview字样的链接，发现其内容为图片列表，含有大约二十个图片的关键信息

2021-03-17 16:15:13 3009 2

原创 matplotlib的字体设置爬坑（坐标字体）

涉及到中文时font与fontproperties的区别import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontProperties#首先导入依赖库然后简单地画一张图：font=FontProperties(fname=r"C:\Windows\Fonts\FZSTK.TTF",size=24)fig, ax = plt.subplots(1,1,figsize=(8,8

2020-10-15 11:57:37 2141 2

原创百度图片api获取（包含获取原网址）

进入百度图片，搜索关键字比如搜索关键词“赵丽颖”——打开调制模式（F12）众所周知，一般图片的url以json列表方式进行输出，所以我们直接去XHR模块去查找json列表。（刚刷新时没有数据出现，这时我们只需要滚动滚轮即可获得数据更新）如下图：打开右方acjson连接进入预览，我们可以发现列表已经出现，这个json的网址也很于一四，经过反复测试，发现规律如下：https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&

2020-08-31 21:43:04 4858 1

原创记录一次成功爬取知音漫客漫画的辛酸路程（js逆向解析）

一，首先漫画的搜索，漫画每章节的标题，每章节的图片数量，这些东西都是最基础的数据，直接使用get方法就可以得到。二，对于付费章节来说，每张图片的src链接都是使用js加密的。熟悉js的应该可以很简单就解析出来（本人完全小白，花费了很长时间解析，主要是走了很多弯路）。以下就是js解析的过程。（1）获取章节源码：1，使用requests.get()直接获取，然后分析获取到的数据，我们发现：如...

2019-08-12 14:44:07 1380 1

u011283565的博客