- 博客(14)
- 收藏
- 关注
原创 python url自动补全
import urlliba = "http://www.ccdi.gov.cn/yaowen/index_{}.html"b = "/202010/t20201029_228894.html"print(urllib.parse.urljoin(a,b))
2020-10-30 08:54:55 1384
原创 python3 正则去除html标签
# text为包含html标签内容content = re.sub("<[^>]*?>", "", text)
2020-10-13 14:54:22 529
原创 xpath保留内容及原始标签
xpath保留内容及原始标签# 先获去相应的xpath节点table = HTML.xpath("/html/body/div[2]/div[1]/div[7]")[0]# 解析并保留原始标签及内容content = etree.tostring(table, encoding='utf-8').decode()
2020-10-13 10:25:41 618
原创 记一次爬虫解决多种编码格式的响应
应用场景为,当请求多个网站但网站的编码格式都不一样时,我们可以显根据响应获取到对应网站的编码,然后根据获取到的编码去解析article_html = requests.get(url=i,headers=self.headers2)article_html.encoding = article_html.apparent_encodinghtml = article_html.textxpath_list = HTML.xpath(html)...
2020-08-10 16:10:04 244
原创 Linux杀死同名的所有进程
例:例如杀死名为a.py的所有进程ps -efww|grep a.py |grep -v grep|cut -c 9-15|xargs kill -9
2020-08-07 08:12:54 482
原创 提取html某节点下包含标签的内容(HTMLParser库)
import requestsfrom lxml import etreefrom lxml import htmlfrom html.parser import HTMLParserresponse = requests.request("GET", url, headers=headers, data = payload, verify=False)# print(response.text)HTML = etree.HTML(response.content.decode())a=.
2020-07-15 10:57:34 523
原创 这里记录一次关于pixel刷机 7.1.2系统 + Frida搭建
这里记录一次关于pixel刷机 7.1.2系统 + Frida搭建一、刷机1.把手机关机后,按下电源键和音量-键,进入fasboot模式,如下图所示2.将sailfish-nhg47k-factory-59f23c7a71-7.1.2解压,并将platform-tools文件解压到sailfish-nhg47k-factory-59f23c7a71-7.1.2解压后的文件中3.在cmd中运行flash-all.sh,如果运行不成功,可以直接在文件中双击flash-...
2020-06-15 18:24:49 1605
原创 记一次cchardet的使用(查看返回内容编码)
import cchardetimport requestsresp = requests.get('https://www.baidu.com/')# 获取返回内容编码coding_ = cchardet.detect(resp.content)print(coding_)print(" ")# 根据获取的编码进行内容解码print(resp.content.decode(coding_['encoding']))...
2020-06-09 11:04:11 684
原创 记一次centos7批量杀死进程
ps -ef | grep xxx应用| awk '{ print $2 }' | xargs kill -9xxx为相应的应用名即运行的文件名字
2020-01-15 08:44:43 1332
原创 记一次Python中快速转化headers的库-copyheader
安装pip install copyheaders具体使用方法import requestsfrom copyheaders import headers_raw_to_dictheaders = headers_raw_to_dict(b'''accept: text/html,application/xhtml+xml,application/xml;q=0.9,ima...
2019-12-24 17:58:28 1444
原创 记一次centos7的crontab定时任务
crontab常用命令 查看当前的定时任务有哪些 crontab -l 进入crontab的编辑页面 crontab -l 查看日志 tailf /var/log/cron编辑定时任务注:在进行定时任务之前,一定要先给要执行的文件添加可执行权限,代码如下chmod +x /data/a.py # 给dada目录下的a文件添加可执...
2019-12-24 17:46:50 133
原创 记一次python中使用mitmdump报错找不到指定的包
方案一:使用pip安装所需要的包,不要再官网上下载方案二:pip(3) install mitmproxy 然后将python目录下的script目录加进系统变量进行调用。 在文件中import sys。在sys模块下面加一句代码 sys.path.apend('python目录的site-packages目录') 以上这两种方法可以解决无法载入包的问题 ...
2019-11-27 09:39:00 1475
原创 记一次Python时间戳生成
import time# 10位时间戳time_now_10 = int(time.time())# 13位时间戳time_now_13 = int(time.time()*1000)# 10位时间戳转化为本地时间time_local = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time_now_10))# 13...
2019-11-21 17:38:26 425
原创 记一次Python中字符串转换html
# 简述:因为使用正则提取内容时,内容中会有很多特殊的编码字符(如上图),正则容易误伤html_data = execjs.eval(f"{{{asd}}}")['content'] # 把字符串转换为js格式,并提取字符串中的content内容,f为python3中内置字符串格式化方法f-stringprint(etree.HTML(html_data).xpath('str...
2019-10-30 15:30:41 7470 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人