python爬虫
晚风拂柳颜
花谢花开花满天,只羡鸳鸯不羡仙
展开
-
python解析html库封装
python自定义html解析库原创 2022-11-14 11:34:39 · 743 阅读 · 0 评论 -
获取ip地址
python封装aes加解密方法原创 2022-07-11 15:59:39 · 447 阅读 · 0 评论 -
python3通过ffmpeg对视频切片
#!/usr/bin/env python3# -*- coding: utf-8 -*-# File : 切片.py# Author: DaShenHan&道长-----先苦后甜,任凭晚风拂柳颜------# Date : 2022/3/17# 自动切片程序,参考 https://www.cnblogs.com/fieldtianye/p/13427303.html# 需要本地有ffmpeg程序并添加到了环境变量import osclass self_video: .原创 2022-03-17 16:14:41 · 3476 阅读 · 0 评论 -
爬虫必会指南
chrome浏览器F12调式,修改替换js文件_u014644574的博客-CSDN博客_浏览器f12修改内容原创 2022-03-02 09:27:41 · 241 阅读 · 0 评论 -
nginx配置自动封ip
自己写了个脚本,用于服务器自动抵御异常爬虫程序#!/bin/bashbanip_run(){nginx_home=/usr/sbin/nginxlog_path=/var/log/nginxnginx_etc=/etc/nginx/conf.dmaxcn=3000history=50000cat /dev/null > $log_path/ban_ip_tmp.txttail -n$history $log_path/access.log \|awk '{print $1,$原创 2021-11-25 20:21:18 · 3216 阅读 · 0 评论 -
python3异步网页请求,互补requests
这个东西很方便,可以异步批量请求。不要去用grequests这个库,这个有大病认真看看下面这篇博客吧,写的很详细python---aiohttp的使用 - 山上有风景 - 博客园转载 2021-10-08 20:34:11 · 157 阅读 · 0 评论 -
python3 xpath解析html并修改后输出
前言:平时我们都是对html文件进行解析后再取数据,用来做数据清洗。网上的xpath教程也很好有讲到怎么对html文件进行修改这里我给出一个例子,保证简单易懂,摆脱手敲re正则表达式的烦恼.demo的html文件。这里我暂且取名为111.html<section class="oe_container app"> <div class="oe_row oe_spaced" style="max-width: 95%;"> <div class="oe_span原创 2020-06-16 13:44:41 · 2842 阅读 · 1 评论 -
过金盾5秒
pip install cfscrape -i https://mirrors.aliyun.com/pypi/simple/项目开源地址:https://github.com/Anorov/cloudflare-scrape原创 2020-03-04 09:11:54 · 1059 阅读 · 0 评论 -
爬虫进阶开始-scrapy
pip install scrapy原创 2020-03-02 14:04:44 · 711 阅读 · 0 评论 -
python3请求头文本转字典
#!/usr/bin/env python3# -*- coding: utf-8 -*-# File : s2d.py# Author: DaShenHan&道长-----先苦后甜,任凭晚风拂柳颜------# Date : 2020/3/1import redef s2d(request_str): ret = "" pattern = '^(.*...原创 2020-03-01 22:57:47 · 1065 阅读 · 0 评论 -
js长文本RSA加解密
function rsa_encode(uncrypted,publickkey) { var encrypt = new JSEncrypt(); //获取公钥 encrypt.setPublicKey(publickkey); //公钥加密 var encrypted = encrypt.encryptLong2(uncrypted); ret...原创 2020-02-28 15:55:08 · 1974 阅读 · 0 评论 -
python加密模块
经常看到很多项目用到了Crypto模块,但是我在python上试了各种办法,就是装不上去。后来发现这玩意儿停更很多年了。它的替代品是 pycrytodome所以,实际上安装这个即可:pip install pycryptodome...原创 2020-02-24 11:24:28 · 1873 阅读 · 0 评论 -
记录一段js代码匹配JSON的值
var jsd = {"res_info":[{"name":"衣七","ident":"衣七","category":"1007","pid":"1001","attr":[{"desc":"称号","k":"tiitle","v":"初入江湖"},{"desc":"年龄","k":"age","v":"1"},{"desc":"等级","k":"level","v":"1"},{"desc"...原创 2020-02-19 20:04:17 · 1942 阅读 · 0 评论 -
解决pycharm运行爬虫下载程序卡死问题
https://blog.csdn.net/weixin_30924239/article/details/95609538pycharm会一直indexing,索引中,卡死了,如此恶心。转载 2020-01-29 10:47:33 · 5300 阅读 · 0 评论 -
xpath的高级用法
这里先说两个.1.取子标签中的最后一个标签,或者倒数的标签。场景:标签数量会变动,但是顺序始终是倒数第一个或者倒数几个的情况:td_list = html.xpath('/html/body/center[3]/table/tbody/tr/td/span/center/center[last()]/table/tbody/tr/td')2.取某个标签下面的所有文本。场...原创 2020-01-28 20:45:21 · 4781 阅读 · 0 评论 -
python正确的取网页源码的姿势
很多网页的源码是有问题的,这里有一个通杀方法,便于取到源码以后快速进行xpath解析直接上源码:#!/usr/bin/env python3# -*- coding: utf-8 -*-# File : 正确的取网页源码方式.py# Author: DaShenHan&道长-----先苦后甜,任凭晚风拂柳颜------# Date : 2020/1/24impor...原创 2020-01-24 17:15:50 · 3475 阅读 · 0 评论 -
fiddler工具的坑
用这个玩意儿抓包,他会自动把系统代理设置为127.0.0.1:8888导致后面访问网站时候各种报错进不了,用python requests请求的时候最明显了后面解决办法 :win10 设置-代理-手动设置代理,把那个开关关掉就行了...原创 2020-01-15 23:10:30 · 3684 阅读 · 0 评论 -
post登录时js作妖加密了密码
一个案例,实际生活中经常遇到,写出来方便以后查看#!/usr/bin/env python3# -*- coding: utf-8 -*-# File : demo.py# Author: DaShenHan&道长-----先苦后甜,任凭晚风拂柳颜------# Date : 2020/1/4# pip install pycryptodome -i https:...原创 2020-01-04 14:28:12 · 5086 阅读 · 1 评论 -
对接视频解析爬虫
demo放上,后期继续优化import reimport requestsimport tkinter as tkimport webbrowserfrom tkinter import messageboxresponse = requests.get('http://www.qmaile.com/')jiexi2 = "https://www.eggvod.cn/jxjxj...原创 2019-12-28 19:33:22 · 3737 阅读 · 0 评论 -
免费招标网站爬虫的核心部分实现
一个demo,并不完善。一是反爬,二是没设计多线程,三是入库操作没仔细弄。大概的功能有了。import requestsimport json# from pprint import pprintimport time# from lxml import etreeimport reimport sqlite3import datetimeclass sql_con:...原创 2019-12-26 10:07:23 · 4767 阅读 · 1 评论 -
再次完善小说爬虫,支持输入小说名字即可爬
接着昨天的程序,加入新研究的搜索小说名获得章节链接,直接爬功能from lxml import etreeimport requestsfrom threading import Thread,enumerateimport osfrom time import sleep,timeimport execjsimport urllib.parseimport jsondef...原创 2019-12-26 10:04:12 · 4684 阅读 · 0 评论 -
前端常见url编码
很多网站的关键字搜索,明明输入的中文,却点击submit按钮过后结果变成英文,仔细看一下input和按钮,并没有什么奇特的地方,也就是发现不了关键字被编码的情况。但是实在诡异,确实是被编码了。我大概分析了一下,传过去的参数大概是按照网站meta charset的编码格式被默认编码了。我这里用python代码实现得到明文编码后的的文本,用了urllib.parse本地编码解码方法,或者调用在...原创 2019-12-25 12:07:52 · 4950 阅读 · 0 评论 -
抓取马上跳转的页面POST信息或者页面内容
在控制台执行以下代码即可:document.body.innerHTML = '<iframe style="height:100%;width:100%" src="'+location.href+'" />';对于target属性为"_blank"的表单,点击搜索后会打开一个新标签页,影响调试难以确定进行的get/post操作可以通过设置跳转属性来避免:控制台执行...转载 2019-12-25 10:54:27 · 5012 阅读 · 0 评论 -
python3本地执行js代码
主要通过第三方库 execjs来实现1.安装:pip install PyExecJS -ihttps://mirrors.aliyun.com/pypi/simple/2.直接使用js代码中应有的函数import execjsresult= execjs.eval(encodeURIComponent(escape('万古杀帝')))print(result)3....原创 2019-12-25 10:42:48 · 4455 阅读 · 0 评论 -
当爬小说遇到前端搜索加密
场景是这样的,今天想看看爬小说可不可以在小说搜索里面,直接搜小说名,然后把想要的结果点进去再爬,然后网站是下面这个:https://www.bookbao8.com/搜了一下看到:然后纳闷了,我在想我输的中文,怎么变成英文了,难道是url编码?在线去测试了一下,url解码解不出来的那么问题来了,这是个什么东东?归根溯源,找一下这个搜索按钮怎么写的。嗯,这是...原创 2019-12-25 09:50:12 · 4177 阅读 · 0 评论