- 博客(32)
- 收藏
- 关注
原创 迁移文件报错
点进报错文件添加:print(app_label + " " + self.model_name_lower + " " + self.name,11111111111111)解决办法:根据输出信息,找到最后一个app,然后注释对应的行。
2024-04-16 17:27:12
152
原创 MySQL插入数据很慢优化
show variables 查看数据库配置找到bulk_insert_buffer_size参数加大mysql配置中的bulk_insert_buffer_size,这个参数默认为8MSET bulk_insert_buffer_size = 100 * 1024 * 1024; #100M#1024 * 1024=1m修改该条记录有助于千万级别数据批量插入。self.cursor.executemany(sql_p, ry)#数据库批量插入:sql_p为sql语句,ry为数据数组里放多
2022-04-14 15:07:11
3226
原创 滑动验证码
一、滑动验证码from selenium import webdriverbrowser = webdriver.Chrome()# 驱动Chrome浏览器打开滑动验证码示例页面browser.get('http://www.porters.vip/captcha/sliders.html')# 定位滑块hover = browser.find_element_by_css_selector('.hover')action = webdriver.ActionChains(browser
2021-12-02 16:24:15
1776
原创 滑块验证拖动距离
import base64import jsonimport requestsheaders = { 'Accept': 'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding': 'gzip, deflate', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep-alive', 'Cookie': 'ASP.NET_
2021-10-20 10:57:56
183
原创 生成随机数,引用js,异步渲染库
import hashlibimport randomimport timetim = int(time.time())action = ''.join(random.sample('0123456789', 5))randstr = ''.join(random.sample([chr(_) for _ in range(65, 91)], 5))info = action+str(tim)+randstrmy_md5 = hashlib.md5(info.encode()).hexdige
2021-10-19 11:06:58
134
转载 centos添加用户
修改Centos7用户默认家目录vim /etc/default/useradd# useradd defaults fileGROUP=100HOME=/home #改这里INACTIVE=-1EXPIRE=SHELL=/bin/bashSKEL=/etc/skelCREATE_MAIL_SPOOL=yescentos添加普通用户流程添加普通用户[root@localhost ~]# adduser dadi密码[root@localhost ~]# passwd dadi
2021-08-17 15:45:02
1188
原创 mysql重启See “systemctl status mysqld.service“ and “journalctl -xe“
centos下做mysql data 目录迁移时,按照网上教程操作完毕,遇到重启一直失败,解决办法:一直怀疑是linux mysql安装不正确,其实早就安装成功了。/etc/selinux/config里修改SELINUX=disabled后,再reboot就可了 记得一定要reboot!!!!!!!...
2021-08-17 10:34:21
739
原创 sql 获取时间字段范围
//获取前一天SELECT * FROM 表名 WHERE DATE(时间字段) =DATE_SUB(CURDATE(),INTERVAL 1 DAY) //获取前两天、、、、依次类推SELECT * FROM 表名 WHERE DATE(时间字段) =DATE_SUB(CURDATE(),INTERVAL 2 DAY) //获取当天SELECT * FROM 表名 WHERE DATE(时间字段) =DATE_SUB(CURDATE(),INTERVAL 0 DAY)范围select
2021-03-04 16:44:15
1090
1
转载 永久全局设置pypi国内镜像源地址
# 如果你只想为当前用户设置,你也可以去掉下面的"--global"选项pip config --global set global.index-url https://mirrors.aliyun.com/pypi/simple/以下是国内比较主流的pypi镜像源:阿里云 https://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣 https://pypi.douban.c
2021-01-21 00:06:52
336
原创 pip 安装python库失败
1,网络原因解决办法:用镜像源安装pip install -i https://pypi.douban.com/simple [包的名字]升级pippython -m pip install --upgrade pip2.镜像源安装依旧失败卸载现有python ,选择低版本Python 降低python板块!!!!!!!!!...
2021-01-20 23:02:03
85
原创 Python3中将js的unescape和escape转换
import urllib.parse#解码escape_str = '%u5DF4%u5F66%u6DD6%u5C14%u5E02%u5965%u9686%u5DE5%u7A0B%u5EFA%u8BBE%u6709%u9650%u516C%u53F8'str1 = escape_str.replace('%u', '\\u')# 得到结果 str1 = '\u4eba\u751f\u82e6\u77ed'str = str1.encode('utf-8').decode('unicode_es
2021-01-07 16:56:41
570
原创 javascript:__doPostBack(‘dgFileNotice$_ctl11$lbtnCheck‘
class ChongqingSpider(scrapy.Spider): name = 'chongqing' start_url = 'http://www.cqjsxx.com/webcqjg/GcxxFolder/jgysba_list.aspx' # custom_settings = { # 'DOWNLOADER_MIDDLEWARES': { # 'zb_yitihua.middlewares.ProxyMiddleware'
2020-12-25 15:51:18
543
原创 python表格操作
import xlrd #导入xlrd模块class ExcelData(): def __init__(self,data_path,sheetname): self.data_path = data_path # excle表格路径,需传入绝对路径 self.sheetname = sh.
2020-08-25 14:32:39
271
原创 保存为csv格式
保存为csv格式 def __init__(self): # 打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除 self.f = open("建设工程.csv", "a", newline="") # 设置文件第一行的字段名,注意要跟spider传过来的字典key名称相同 self.fieldnames = ["city", "postdate", "title", "projectAllName", "bidNo"
2020-07-01 16:11:23
371
原创 关于scrapy 管道传数据库操作参照
def process_item(self, item, spider): data = dict(item) content_url = data['sourceUrl'] #特殊网站(post) md5 = hashlib.md5(content_url.encode()).hexdigest() ErrorCause = '' status = '' con = pymysql.co...
2020-05-13 16:28:40
132
原创 Scrapy中多个Spider,存入不同数据库中不同的表中
有些时候,我们可能需要存入不同的数据库中,而settings中只能设置一个数据库的资料,那么这时候我们就需要使用custom_settings参数来为每一个spider配置对应的pipeline。不过scrapy版本必须是1.1以上Class Test1(scrapy.Spider): name = "test1" custom_settings = { 'ITEM_PIPELIN...
2020-04-26 11:08:32
1100
1
原创 python简单图片识别(pytesseract)
import ioimport requestsfrom urllib.parse import urljoinfrom parsel import Selectortry: from PIL import Imageexcept ImportError: import Imageimport pytesseracturl = 'http://www.porters....
2020-04-16 16:54:07
181
原创 忘记mysql密码——root密码重设(覆盖)
1.停止服务打开管理员终端输入:net stop mysql802.新建记事本输入:alter user ‘root’@‘localhost’ identified by ‘新密码’3.终端输入:第一个地址“MySQL80安装地址”,第二个地址新建记事本地址4.关闭服务:ctrl+c5打开服务:重新打开终端输入:net start mysql80...
2020-03-25 14:59:22
113
原创 UnicodeEncodeError: 'ascii'
运行程序报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)两种方法:第一设置系统的默认编码为utf-81,在我们的电脑上打开pycharm,点击file->settings2,进去settings界面之后,点击Editor-&...
2020-01-09 11:24:12
1137
原创 连接数据库并插入数据
con = pymysql.connect(host="139.129.102.142", port=3306, user="tanhanyue", password="thy123456", db="yuanyue")cursor = self.con.cursor()sql = 'INSERT INTO chongqing_zaobiao(title,pub_date,province,...
2019-12-05 15:18:04
137
原创 自学python随记
获取当前日期import datetimetoday = datetime.date.today()scrapy xpath 用法VIEWSTATE = response.xpath('''//input[@id="__VIEWSTATE"]/@value''').extract()[0]
2019-10-17 09:37:47
197
转载 python爬虫常用第三方库
这个列表包含与网页抓取和数据处理的Python库网络通用urllib -网络库(stdlib)。requests -网络库。grab – 网络库(基于pycurl)。pycurl – 网络库(绑定libcurl)。urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。httplib2 – 网络库。RoboBrowser – 一个简单的、极具Pyth...
2019-10-12 10:48:25
475
转载 时间
获取当前时间import datetime day = datetime.datetime.now()day2 = datetime.date.today()print("当前年月日时分秒:", day)print("只查看年月日:", day2)执行结果: 当前年月日时分秒: 2018-09-19 21:18:57.132640 只查看年月日: 2018-09-19只查看...
2019-10-09 11:53:44
99
原创 创建scrapy项目
在目标目录按住shift 点击鼠标右键打开控制面板创建项目:scrapy startproject 项目名称创建 spider,首先进入项目名称文件夹下spider,输入scrapy genspider 名称 目标域名2.编写scrapy 爬虫项目编写items.py这里是我们想要采集的数据字段spiders下的 名称 .py 文件这里是我们写爬虫的主要实现逻辑编写pipel...
2019-09-10 16:11:28
131
原创 将print输出保存到文件(且控制台依旧要输出
加上这个类即可import sys#打印输出到log.txtclass Logger(object): def __init__(self, filename="log.txt"): self.terminal = sys.stdout self.log = open(filename, "a",encoding="utf-8") def ...
2019-08-29 16:57:01
1366
原创 for.....in.....遍历问题
字典L = {"剧情": "11", "喜剧": "24", "动画": "25"}for key,value in L.items(): print(key,value)#输出 ''' 剧情 11 喜剧 24 动画 25'''L = {"剧情": "11", "喜剧": "24", "动画": "25"}for key,value in L.it...
2019-08-26 21:02:03
137
原创 python采集利用网页源码判断是否有下一页,如有则继续采集下一页内容
不完整代码def page_next(url): age = header(url) ponse = etree.HTML(age) page = ponse.xpath('//div[@class="ewb-page"]//li[contains(@class,"ewb-page-hover")][2]/a/@href')#下一页的标签链接(只有一半,需要和域名拼接)...
2019-08-22 14:33:52
2556
原创 peewee连接数据库并创建表及插入数据
引用peewee和链接数据库rom peewee import *db = MySQLDatabase("spider", host="127.0.0.1", port=3306, user="root", password="123456")class BaseModel(Model): class Meta: database = db建立表#设计数据表...
2019-08-22 14:23:18
3961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人