自学
迷了鹿的狗子
这个作者很懒,什么都没留下…
展开
-
MySQL插入数据很慢优化
show variables 查看数据库配置找到bulk_insert_buffer_size参数加大mysql配置中的bulk_insert_buffer_size,这个参数默认为8MSET bulk_insert_buffer_size = 100 * 1024 * 1024; #100M#1024 * 1024=1m修改该条记录有助于千万级别数据批量插入。self.cursor.executemany(sql_p, ry)#数据库批量插入:sql_p为sql语句,ry为数据数组里放多原创 2022-04-14 15:07:11 · 3289 阅读 · 0 评论 -
滑动验证码
一、滑动验证码from selenium import webdriverbrowser = webdriver.Chrome()# 驱动Chrome浏览器打开滑动验证码示例页面browser.get('http://www.porters.vip/captcha/sliders.html')# 定位滑块hover = browser.find_element_by_css_selector('.hover')action = webdriver.ActionChains(browser原创 2021-12-02 16:24:15 · 1823 阅读 · 0 评论 -
滑块验证拖动距离
import base64import jsonimport requestsheaders = { 'Accept': 'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding': 'gzip, deflate', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep-alive', 'Cookie': 'ASP.NET_原创 2021-10-20 10:57:56 · 202 阅读 · 0 评论 -
生成随机数,引用js,异步渲染库
import hashlibimport randomimport timetim = int(time.time())action = ''.join(random.sample('0123456789', 5))randstr = ''.join(random.sample([chr(_) for _ in range(65, 91)], 5))info = action+str(tim)+randstrmy_md5 = hashlib.md5(info.encode()).hexdige原创 2021-10-19 11:06:58 · 150 阅读 · 0 评论 -
MySQL中的CURRENT_TIMESTAMP
CURRENT_TIMESTAMP原创 2021-10-11 15:05:53 · 205 阅读 · 0 评论 -
centos账号管理
Linux/Centos7账号与权限管理(超详细实例操作)转载 2021-08-17 16:26:03 · 109 阅读 · 0 评论 -
centos添加用户
修改Centos7用户默认家目录vim /etc/default/useradd# useradd defaults fileGROUP=100HOME=/home #改这里INACTIVE=-1EXPIRE=SHELL=/bin/bashSKEL=/etc/skelCREATE_MAIL_SPOOL=yescentos添加普通用户流程添加普通用户[root@localhost ~]# adduser dadi密码[root@localhost ~]# passwd dadi转载 2021-08-17 15:45:02 · 1220 阅读 · 0 评论 -
mysql重启See “systemctl status mysqld.service“ and “journalctl -xe“
centos下做mysql data 目录迁移时,按照网上教程操作完毕,遇到重启一直失败,解决办法:一直怀疑是linux mysql安装不正确,其实早就安装成功了。/etc/selinux/config里修改SELINUX=disabled后,再reboot就可了 记得一定要reboot!!!!!!!...原创 2021-08-17 10:34:21 · 801 阅读 · 0 评论 -
sql 获取时间字段范围
//获取前一天SELECT * FROM 表名 WHERE DATE(时间字段) =DATE_SUB(CURDATE(),INTERVAL 1 DAY) //获取前两天、、、、依次类推SELECT * FROM 表名 WHERE DATE(时间字段) =DATE_SUB(CURDATE(),INTERVAL 2 DAY) //获取当天SELECT * FROM 表名 WHERE DATE(时间字段) =DATE_SUB(CURDATE(),INTERVAL 0 DAY)范围select原创 2021-03-04 16:44:15 · 1149 阅读 · 1 评论 -
永久全局设置pypi国内镜像源地址
# 如果你只想为当前用户设置,你也可以去掉下面的"--global"选项pip config --global set global.index-url https://mirrors.aliyun.com/pypi/simple/以下是国内比较主流的pypi镜像源:阿里云 https://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣 https://pypi.douban.c转载 2021-01-21 00:06:52 · 386 阅读 · 0 评论 -
pip 安装python库失败
1,网络原因解决办法:用镜像源安装pip install -i https://pypi.douban.com/simple [包的名字]升级pippython -m pip install --upgrade pip2.镜像源安装依旧失败卸载现有python ,选择低版本Python 降低python板块!!!!!!!!!...原创 2021-01-20 23:02:03 · 103 阅读 · 0 评论 -
Python3中将js的unescape和escape转换
import urllib.parse#解码escape_str = '%u5DF4%u5F66%u6DD6%u5C14%u5E02%u5965%u9686%u5DE5%u7A0B%u5EFA%u8BBE%u6709%u9650%u516C%u53F8'str1 = escape_str.replace('%u', '\\u')# 得到结果 str1 = '\u4eba\u751f\u82e6\u77ed'str = str1.encode('utf-8').decode('unicode_es原创 2021-01-07 16:56:41 · 597 阅读 · 0 评论 -
javascript:__doPostBack(‘dgFileNotice$_ctl11$lbtnCheck‘
class ChongqingSpider(scrapy.Spider): name = 'chongqing' start_url = 'http://www.cqjsxx.com/webcqjg/GcxxFolder/jgysba_list.aspx' # custom_settings = { # 'DOWNLOADER_MIDDLEWARES': { # 'zb_yitihua.middlewares.ProxyMiddleware'原创 2020-12-25 15:51:18 · 571 阅读 · 0 评论 -
python表格操作
import xlrd #导入xlrd模块class ExcelData(): def __init__(self,data_path,sheetname): self.data_path = data_path # excle表格路径,需传入绝对路径 self.sheetname = sh.原创 2020-08-25 14:32:39 · 289 阅读 · 0 评论 -
保存为csv格式
保存为csv格式 def __init__(self): # 打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除 self.f = open("建设工程.csv", "a", newline="") # 设置文件第一行的字段名,注意要跟spider传过来的字典key名称相同 self.fieldnames = ["city", "postdate", "title", "projectAllName", "bidNo"原创 2020-07-01 16:11:23 · 400 阅读 · 0 评论 -
关于scrapy 管道传数据库操作参照
def process_item(self, item, spider): data = dict(item) content_url = data['sourceUrl'] #特殊网站(post) md5 = hashlib.md5(content_url.encode()).hexdigest() ErrorCause = '' status = '' con = pymysql.co...原创 2020-05-13 16:28:40 · 155 阅读 · 0 评论 -
Scrapy中多个Spider,存入不同数据库中不同的表中
有些时候,我们可能需要存入不同的数据库中,而settings中只能设置一个数据库的资料,那么这时候我们就需要使用custom_settings参数来为每一个spider配置对应的pipeline。不过scrapy版本必须是1.1以上Class Test1(scrapy.Spider): name = "test1" custom_settings = { 'ITEM_PIPELIN...原创 2020-04-26 11:08:32 · 1130 阅读 · 1 评论 -
python简单图片识别(pytesseract)
import ioimport requestsfrom urllib.parse import urljoinfrom parsel import Selectortry: from PIL import Imageexcept ImportError: import Imageimport pytesseracturl = 'http://www.porters....原创 2020-04-16 16:54:07 · 209 阅读 · 0 评论 -
用镜像源安装python库
pip install -i https://pypi.douban.com/simple [包的名字]原创 2020-04-16 15:15:22 · 294 阅读 · 0 评论 -
忘记mysql密码——root密码重设(覆盖)
1.停止服务打开管理员终端输入:net stop mysql802.新建记事本输入:alter user ‘root’@‘localhost’ identified by ‘新密码’3.终端输入:第一个地址“MySQL80安装地址”,第二个地址新建记事本地址4.关闭服务:ctrl+c5打开服务:重新打开终端输入:net start mysql80...原创 2020-03-25 14:59:22 · 135 阅读 · 0 评论 -
UnicodeEncodeError: 'ascii'
运行程序报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)两种方法:第一设置系统的默认编码为utf-81,在我们的电脑上打开pycharm,点击file->settings2,进去settings界面之后,点击Editor-&...原创 2020-01-09 11:24:12 · 1193 阅读 · 0 评论 -
连接数据库并插入数据
con = pymysql.connect(host="139.129.102.142", port=3306, user="tanhanyue", password="thy123456", db="yuanyue")cursor = self.con.cursor()sql = 'INSERT INTO chongqing_zaobiao(title,pub_date,province,...原创 2019-12-05 15:18:04 · 156 阅读 · 0 评论 -
自学python随记
获取当前日期import datetimetoday = datetime.date.today()scrapy xpath 用法VIEWSTATE = response.xpath('''//input[@id="__VIEWSTATE"]/@value''').extract()[0]原创 2019-10-17 09:37:47 · 213 阅读 · 0 评论 -
python爬虫常用第三方库
这个列表包含与网页抓取和数据处理的Python库网络通用urllib -网络库(stdlib)。requests -网络库。grab – 网络库(基于pycurl)。pycurl – 网络库(绑定libcurl)。urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。httplib2 – 网络库。RoboBrowser – 一个简单的、极具Pyth...转载 2019-10-12 10:48:25 · 503 阅读 · 0 评论 -
时间
获取当前时间import datetime day = datetime.datetime.now()day2 = datetime.date.today()print("当前年月日时分秒:", day)print("只查看年月日:", day2)执行结果: 当前年月日时分秒: 2018-09-19 21:18:57.132640 只查看年月日: 2018-09-19只查看...转载 2019-10-09 11:53:44 · 120 阅读 · 0 评论 -
创建scrapy项目
在目标目录按住shift 点击鼠标右键打开控制面板创建项目:scrapy startproject 项目名称创建 spider,首先进入项目名称文件夹下spider,输入scrapy genspider 名称 目标域名2.编写scrapy 爬虫项目编写items.py这里是我们想要采集的数据字段spiders下的 名称 .py 文件这里是我们写爬虫的主要实现逻辑编写pipel...原创 2019-09-10 16:11:28 · 146 阅读 · 0 评论 -
将print输出保存到文件(且控制台依旧要输出
加上这个类即可import sys#打印输出到log.txtclass Logger(object): def __init__(self, filename="log.txt"): self.terminal = sys.stdout self.log = open(filename, "a",encoding="utf-8") def ...原创 2019-08-29 16:57:01 · 1386 阅读 · 0 评论 -
for.....in.....遍历问题
字典L = {"剧情": "11", "喜剧": "24", "动画": "25"}for key,value in L.items(): print(key,value)#输出 ''' 剧情 11 喜剧 24 动画 25'''L = {"剧情": "11", "喜剧": "24", "动画": "25"}for key,value in L.it...原创 2019-08-26 21:02:03 · 159 阅读 · 0 评论 -
peewee连接数据库并创建表及插入数据
引用peewee和链接数据库rom peewee import *db = MySQLDatabase("spider", host="127.0.0.1", port=3306, user="root", password="123456")class BaseModel(Model): class Meta: database = db建立表#设计数据表...原创 2019-08-22 14:23:18 · 4037 阅读 · 0 评论 -
python采集利用网页源码判断是否有下一页,如有则继续采集下一页内容
不完整代码def page_next(url): age = header(url) ponse = etree.HTML(age) page = ponse.xpath('//div[@class="ewb-page"]//li[contains(@class,"ewb-page-hover")][2]/a/@href')#下一页的标签链接(只有一半,需要和域名拼接)...原创 2019-08-22 14:33:52 · 2591 阅读 · 0 评论