你也太秀了8-CSDN博客

原创 python批量文件重命名

import os, syslist_name = []def file_name(file_dir): os.chdir(file_dir) for root, dirs, files in os.walk(file_dir): print('files:', files) # 当前路径下所有非目录子文件 for name in files: head = name[:-7] tail = name[-7:]

2022-05-14 16:19:36 416

原创 python随机篡改图片exif信息达到修改定位效果

from PIL import Image,ExifTagsimg = Image.open("JPG")exif=dict(img._getexif().items())

2022-05-09 14:18:23 555

原创 HTTP状态码笔记

（本文部分内容来自于肖佳《http抓包实战》，侵删）1.状态码分类http中规定了5类状态码，状态码由三位数字组成，第一个数字定义了响应的类别2.常见的状态码2.1 200成功响应，所请求的资源成功发送回客户端2.2 204返回的http响应只有header和一个状态行，没有实体的内容（没有响应的body）204状态码的作用：（1）在不获取资源的情况下了解资源情况（2）通过查看http响应中的状态码看某个对象是否存在（3）通过查看header测试资源是否被修改2.3 20620

2022-03-29 20:18:51 2258

原创使用Wordcold生成中文词云，并更换背景色、设置停用词

from wordcloud import WordCloud,STOPWORDSimport PIL.Image as imageimport numpy as npimport jieba# 分词def trans_CN(text): # 接收分词的字符串 word_list = jieba.cut(text) # 分词后在单独个体之间加上空格 result = " ".join(word_list) return resultwith open(

2022-01-30 13:24:16 1439

原创统计列表中元素的个数

list = [1,2,4,5,6,7,1,2,6,6]dic = {}for key in list: dic.update({key:list.count(key)})# print {1:2,2:2,4:1,5:1,6:3,7:1}

2020-02-19 10:56:34 3965

原创 python requests保存网页文件参数总结

一：r= requests.get(url,headers=headers,stream=True)官方文档：如果你在请求中把 stream 设为 True，Requests 无法将连接释放回连接池，除非你消耗了所有的数据，或者调用了 Response.close。这样会带来连接效率低下的问题。如果你发现你在使用 stream=True 的同时还在部分读取请求的 body（或者完全没有读取...

2019-12-20 12:13:25 784

原创有关scrapy频繁报错301、302 HTTP status code is not handled or not allowed的解决方法

我查了一些方法都是在settings里设置停用301 302代码，治标不治本，还是拿不到数据。然后我把settings里的REDIRECT_ENABLED = False这句话删掉，就可以拿到数据了！可能是因为重定向到headers的host地址了？搞不明白。。欢迎大家指正...

2019-12-12 10:22:59 867

原创 python获取网页编码格式

爬虫获取网页内容要准确获取网页的编码格式，有utf-8，gbk，gb2312等等。今天在爬新闻网站时候，发现同一个网页会分不同的编码，但是获取HTML节点相关是根据第一个编码格式来的，拿人民网新闻页源码举例。当我使用python的url = "http://theory.people.com.cn/n1/2019/1001/c40531-31383055.html"r = request...

2019-10-07 12:46:22 1469

原创记一篇在sata固态上安装好系统的电脑上加装m2固态硬盘，是如何重装系统的

倒腾了块三星的m2接口固态硬盘，但是死活装不上系统。问了好多人终于解决了，现在总结一下，万一有人用得着。m2固态装好之后正常启动。我用的是大白菜制作工具，按普通的做系统盘的方式做好一个启动盘，上面装好PE。接下来下载镜像，推荐MSDN的ltsc企业win10，都说这个好，跟风总没错。不用放到U盘上，随便放个地方（除了你要写系统的盘）记着路径就行。重启，BIOS上选U盘启动，到PE界面选择w...

2019-10-06 21:18:29 23780

原创常用网页正文提取方法总结

最近研究这块内容头发快掉完，写一些东西来梳理梳理，以后写论文可能用得上。1.基于模板的方法依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。优点：针对特定的网页模式，实现简单（可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等），定位准确。缺点：对于不同的网页模式或者网页结构需...

2019-08-22 15:02:42 2561 1

qq_29880515的博客