那些年错过的东西-CSDN博客

原创 python处理多个时间段是否重叠案例

处理电商方面同一个分组下时间是否填重叠问题，减少人为检查中错误

2023-10-22 11:46:08 376

原创 Linux搜索，压缩打包，任务调度指令

linux下的定时任务调度，历史查看指令，压缩解压，查询定位

2022-07-31 16:30:27 221

原创 python基础小记1

python语句的输入输出，赋值运算，条件判断，循环用法

2022-06-30 18:55:32 301

安装scrapypip install scrapydpip install scrapyd-client安装好后输入scrapyd,结果如下部署scrapy爬虫,先配置好需要部署的爬虫的scrapy.cfg文件原先# Automatically created by: scrapy startproject## For more information about the [deploy] section see:# https://scrapyd.readthedocs.io/en

2022-05-29 21:43:55 248

原创 scrapy使用cookie小测试

这里是scrapy,spider代码import scrapyfrom boos.items import BoosItemclass BoosSpiderSpider(scrapy.Spider): name = 'boos_spider' allowed_domains = ['www.zhipin.com'] start_urls = ["https://www.zhipin.com/c101280100/?query=python%E7%88%AC%E8%9

2022-05-20 22:47:59 139

原创 scrapy小练习

Spiders(url)–scrapyEnging(中转)–scheduler(url调度)–scrapyEnging(中转)–downloader(请求数据)–scrapyEnging(中转)–Spiders(返回url执行开始的顺便，data继续执行)–itempipeline(数据存储)创建scrapy项目:scrapy startproject+爬虫项目名称scrapy startproject biquge创建爬虫：scrapy genspider+自己设置爬虫名字+爬虫的域名scra.

2022-05-17 16:59:29 416

原创解析woff,xml

读取woff,xml文件font = TTFont('猫眼榜单.woff')# font.saveXML('3.xml')cmap = font.getBestCmap() #获取code及对应的nameglyf = font.getGlyphOrder() #获取glyf中的name#{120: 'x', 57628: 'uniE11C', 57708: 'uniE16C', 58724: 'uniE564', 58770: 'uniE592', 59076: 'uniE6C4', 611

2022-05-16 22:32:44 491

原创 pyhton爬虫（简单过字体加密）

1. 找到反爬内容确定字体存放位置定位到正则匹配import refrom fontTools.ttLib import TTFontimport requestsheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39

2022-05-15 21:07:14 588

原创 selenium元素截图（亲测有效）

selenium元素截图（在不滚动滑动条的情况下）可见即可截from selenium import webdriverfrom PIL import Imagedriver_path=r"D:\pythonguanli\chromedriver_win32\chromedriver.exe"driver=webdriver.Chrome(executable_path=driver_path)driver.get("https://www.hao123.com/?src=from_pc_logo

2022-05-13 10:47:52 4655

原创 BeautifulSoup简单应用（python爬虫）

打开cmd安装pip install beautifulsoup4根据属性定位server=soup.find(attrs={'id':'hao123-govsite'})定位server下的a标签a=server.a获取a标签的中的href和文字text=a.texttext=a['href']根据属性定位div下的所有a标签a=soup.find_all(attrs={'class':'g-gc'})import requestsfrom bs4 import B.

2022-05-10 00:28:14 349

原创 python爬虫小bug

利用验证码登录，借用了ocr进行识别，过不了import requestsfrom bs4 import BeautifulSoupimport tesserocrfrom PIL import Imagefrom yzmapi import killerimport requests_htmlsession=requests.session()# session = requests_html.HTMLSession()headers={ "user-agent": "Mozi

2022-05-09 02:23:24 683

原创 python爬虫进阶（MD5）

找到加密参数pwd: e10adc3949ba59abbe56e057f20f883e根据参数pwd进行搜索定位加密方法点击进入，进行定位调试，如下点击md5进入在这里可以看到md5的加密方法啥的，然后就是找个环境扣下来运行，大概运行情况如下，结果可以看到其实和调用hashlib库得到的加密是一样的以后遇到这种就直接使用第二个方法简单快捷就不用去逆向了侵权立删...

2022-05-07 20:19:51 1064

原创处理请求头（headers--给ua,cookie,referer加引号)

一天一个小技巧import reheaders=""" cookie: SINAGLOBAL=8338520552292.696.1621254705386; SUB=_2AkMX599Lf8NxqwJRmfgWyW_laYRwzQvEieKhuy6QJRMxHRl-yT9kqlADtRB6PGfxpCaNTbFDQyYtLz9mJAvPKRrVIqAM; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WhsgjIAinkWne46-hGaK.I6; UOR=,,cn.

2022-04-26 02:56:08 556

原创 python用了协程以后爬虫程序

没有用之前#coding:utf-8import requestsfrom lxml import etreefrom bs4 import BeautifulSoupfrom concurrent.futures import ThreadPoolExecutor# 线程池import timeheader={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li

2022-04-26 02:27:10 762

原创 xpath定位简单应用

获取字段标签属性（href）li=tree.xpath("//div[@class='article']//li//a/@href")[0]可以看到href在div[@class='article']里面，直接//定位,//div[@class='article']第二步接着//定位到li(因为li在第一步定位的第n层，不是在下一层级用/定位不到)//div[@class='article']//li)第三步//接着定位a类似第二步想法，最后直接/@href定位属性url(相当于在a的下

2022-04-24 03:46:38 1043

原创记下笔记（python)

以下问题解答只是个人理解，可能存在错误，供参考，有错敬请指正，谢谢，也可以说下自己的理解，或者自行百度更权威的理解Python中__init__ 和__new__的区别__new__是在实列创建之前被调用，创建实列返回实列对象__init__是在实列创建之后被调用，通常用来初始化对象整个爬虫的工作流程发送请求-接收数据-处理数据-存储http的响应码（100-199）信息响应（200-299）成功响应（300-399）重定向（400-499）客服端错误（500-599）服务端错误.

2022-04-22 03:18:42 107

原创 mitmproxy安装和使用

1. 安装mitmproxy库(windows)pip install mitmproxy2.安装好记得安装证书3.查看是否安装完成打开cmd,输入mitmdump --version,输出如下C:\Users\luoha>mitmdump --versionMitmproxy: 5.3.0Python: 3.7.0OpenSSL: OpenSSL 1.1.1h 22 Sep 2020Platform: Windows-10-10.0.19041-SP04.使用

2022-04-09 01:09:24 876

原创 requests请求几个参数

安装requests库 pip install requestsrequests库的使用import requestsurl="https://www.baidu.com" #请求的地址header={ "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.

2022-04-09 00:29:32 472

原创简单练习pyautogui

注释个人见解import pyautoguiimport cv2import timea=pyautogui.size()#屏幕分辨率print(a)b=pyautogui.position()#鼠标的坐标位置print(b)# pyautogui.moveTo(100,200,1) #鼠标移动,绝对位置# pyautogui.move(0,50,2)#相对位置# pyautogui.dragTo(100,200,2,button='right') #鼠标拖动，默认会点击鼠标左键#

2022-04-01 20:38:35 219

小程序实现简单的页面交付

主要是利用小程序开发者工具的WXML，WXSS，JS，云数据库，云函数来搭建一个简单的论坛交互功能，主要分为个人信息模块，消息模块，学习模块，文章信息发布交互模块（包括点赞，分享，实时聊天）可以选择发布不同的文章。一些功能描述当用户进入平台小程序，如果没有登录，可以以游客的视角在学习模块查看到各个知识点，在分享模块可以看到其他用户在这上面的发表的博客、动态等，也能进入对应博客、动态的页面查看，登录了的话，可以以用户的查看小程序，不同的是在于在分享模块可以发表博客、动态等，也能对其他用户的博客、动态进行评论、点赞，点击头像还能和其他用户聊天，当我们和用户聊天是，用户可以在消息模块查看到是和哪一位用户聊天，在该模块点击对应的头像可以继续进入之前聊天模块进行交互，个人模块可以进行对发表的博客、动态等进行一个管理。

2023-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_45664532的博客

原创 python处理多个时间段是否重叠案例

原创 python爬取视频练习

原创 js中常见的混淆

原创 NLTK安装踩得坑

原创 request中的post参数上传小技巧

原创 git的简单应用，指令

原创 mysql,mongodb常见的基础语法