自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 python批量文件重命名

import os, syslist_name = []def file_name(file_dir): os.chdir(file_dir) for root, dirs, files in os.walk(file_dir): print('files:', files) # 当前路径下所有非目录子文件 for name in files: head = name[:-7] tail = name[-7:]

2022-05-14 16:19:36 392

原创 python随机篡改图片exif信息达到修改定位效果

from PIL import Image,ExifTagsimg = Image.open("JPG")exif=dict(img._getexif().items())

2022-05-09 14:18:23 538

原创 HTTP状态码笔记

(本文部分内容来自于肖佳《http抓包实战》,侵删)1.状态码分类http中规定了5类状态码,状态码由三位数字组成,第一个数字定义了响应的类别2.常见的状态码2.1 200成功响应,所请求的资源成功发送回客户端2.2 204返回的http响应只有header和一个状态行,没有实体的内容(没有响应的body)204状态码的作用:(1)在不获取资源的情况下了解资源情况(2)通过查看http响应中的状态码看某个对象是否存在(3)通过查看header测试资源是否被修改2.3 20620

2022-03-29 20:18:51 2228

原创 使用Wordcold生成中文词云,并更换背景色、设置停用词

from wordcloud import WordCloud,STOPWORDSimport PIL.Image as imageimport numpy as npimport jieba# 分词def trans_CN(text): # 接收分词的字符串 word_list = jieba.cut(text) # 分词后在单独个体之间加上空格 result = " ".join(word_list) return resultwith open(

2022-01-30 13:24:16 1428

原创 统计列表中元素的个数

list = [1,2,4,5,6,7,1,2,6,6]dic = {}for key in list: dic.update({key:list.count(key)})# print {1:2,2:2,4:1,5:1,6:3,7:1}

2020-02-19 10:56:34 3947

原创 python requests保存网页文件参数总结

一:r= requests.get(url,headers=headers,stream=True)官方文档:如果你在请求中把 stream 设为 True,Requests 无法将连接释放回连接池,除非你 消耗了所有的数据,或者调用了 Response.close。 这样会带来连接效率低下的问题。如果你发现你在使用 stream=True 的同时还在部分读取请求的 body(或者完全没有读取...

2019-12-20 12:13:25 778

原创 有关scrapy频繁报错301、302 HTTP status code is not handled or not allowed的解决方法

我查了一些方法都是在settings里设置停用301 302代码,治标不治本,还是拿不到数据。然后我把settings里的REDIRECT_ENABLED = False这句话删掉,就可以拿到数据了!可能是因为重定向到headers的host地址了?搞不明白。。欢迎大家指正...

2019-12-12 10:22:59 848

原创 python获取网页编码格式

爬虫获取网页内容要准确获取网页的编码格式,有utf-8,gbk,gb2312等等。今天在爬新闻网站时候,发现同一个网页会分不同的编码,但是获取HTML节点相关是根据第一个编码格式来的,拿人民网新闻页源码举例。当我使用python的url = "http://theory.people.com.cn/n1/2019/1001/c40531-31383055.html"r = request...

2019-10-07 12:46:22 1452

原创 记一篇在sata固态上安装好系统的电脑上加装m2固态硬盘,是如何重装系统的

倒腾了块三星的m2接口固态硬盘,但是死活装不上系统。问了好多人终于解决了,现在总结一下,万一有人用得着。m2固态装好之后正常启动。我用的是大白菜制作工具,按普通的做系统盘的方式做好一个启动盘,上面装好PE。接下来下载镜像,推荐MSDN的ltsc企业win10,都说这个好,跟风总没错。不用放到U盘上,随便放个地方(除了你要写系统的盘)记着路径就行。重启,BIOS上选U盘启动,到PE界面选择w...

2019-10-06 21:18:29 23597

原创 常用网页正文提取方法总结

最近研究这块内容头发快掉完,写一些东西来梳理梳理,以后写论文可能用得上。1.基于模板的方法依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。优点:针对特定的网页模式,实现简单(可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等),定位准确。缺点:对于不同的网页模式或者网页结构需...

2019-08-22 15:02:42 2500 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除