自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 python 日志输出配置模块

import logging# 日志模块class Logger: ''' 文件日志及控制台日志输出配置 ''' def __init__(self, filename='logging.log', fileLevel = logging.INFO, consoleLevel = logging.INFO): self.filename = filename self.format = "%(asctime)s - [line:%.

2021-03-09 15:51:52 196 1

原创 kafka 从指定位置消费数据

from kafka import KafkaConsumerfrom kafka.structs import TopicPartitiontopics = 'test'kc = KafkaConsumer(bootstrap_servers="127.0.0.1:9092")tp = TopicPartition(topics, 0) # 主题,分区kc.assign([tp])# 开始的位置offset = 10000kc.seek(partition=tp, offset..

2020-07-24 11:10:39 1089 1

原创 mysql binlog 二进制日志常用命令大全;mysqlbinlog工具命令

1.查看binlog日志列表 show master logs; show binary logs;2.查看master状态,即最后(最新)一个binlog日志的编号名称,及其最后一个操作事件pos结束点(Position)值 show master status3、查看binlog日志开启模式 show variables like '%binlog_for%';4、查看第一个binlog文件内容 show binlog events5、查看...

2020-07-24 10:50:23 426

原创 kafka 常用命令

一、启动命令 zookeeper启动: ./bin/zookeeper-server-start.sh ./config/zookeeper.properties kafka 启动:./bin/kafka-server-start.sh ./config/server.properties二、主题topic命令 创建主题:bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic heima --par...

2020-07-24 10:24:25 164

原创 maxwell 读取binlog日志 时区问题, Timestamp类型值相差8小时及max.request.size错误问题

一、时区问题解决方案: 测试 版本说明:1.27版本有用,1.22版本无效 配置文件config.properties.example 添加jdbc_options = useSSL=false&serverTimezone=Asia/Shanghai指定serverTimezone属性值,默认是UTC二、数据传输大小限制max.request.size默认值为1048576,如果文件超过1M即报max.request.size错误kafka.max....

2020-07-23 10:28:39 1622

转载 MySQL的下载和安装

MySQL是大公司通用的数据管理系统,开源~在国内用的很多,建议好好学(本宝宝下载和安装的时候踩了好多坑,可能我太笨了,弄了大半天才装好,贴出来大家供参考=_=)1.下载 从官网下载,下载地址:https://www.mysql.com/downloads/企业版是要收费的,注意我们要选择community版本。我选的MySQL5.6,最新的版本是MySQL8.0,。点开这个地址: https://dev.mysql...

2020-05-14 11:36:31 1022

转载 突破前端反调试--阻止页面不断debugger(F12不能调试)

chrome-devtools前端调试调试前端网页爬虫问题复现一次扒某网站的前端代码,打开控制台要看Network,结果发现他们页面一打开控制台就不断的debugger,100ms一次,很影响看页面内容。就像下面这样的问题分析每次在断点处停下来的时候页面都会跳到source这个tab页面,也能够看到他的debugger的代码,其实他的实现很简单,只有这一行代码(fu...

2020-04-13 18:20:51 9008 4

转载 pip 安装超时问题解决方案

我们用默认pip源进行安装第三方模块时,经常会碰到超时问题,下面是解决方案首先在下面文件夹下建立一个pip文件夹C:\Users\Administrator\AppData\Roaming然后在pip文件夹下新建一个文件pip.ini,内容:[global]timeout = 60000index-url = https://pypi.tuna.tsinghua.edu.cn/...

2020-03-14 17:53:01 839

原创 正则只匹配中文汉字

[^\u4e00-\u9fa5] //匹配非中文字符[\u4e00-\u9fa5] //匹配中文字符^[1-9]\d*$ //匹配正整数^[A-Za-z]+$ //匹配由26个英文字母组成的字符串^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串^[a-z]+$ //匹配由26个英文字母的小写组成的字符串^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符...

2020-01-20 11:14:25 6180 1

转载 使用Kettle 转移数据遇到中文乱码问题

最近使用kettle从测试环境迁移数据到生产环境 ,遇到中文乱码问题。找了很久资料,最终才解决。解决方法:在 起始数据库 跟 目标数据库的选项里 都配置编码 (characterEncoding=utf8):然后运行就ok了如果不行,就清理一下kettle 数据库连接的缓存然后再重新运行! 我到这里就完全ok了如果还不行,可以试着在kettle的启动文件添...

2020-01-19 10:38:28 581

原创 mysql 根据1个或多个列删除重复值,sql语句 删除重复值

问题:数据库表t,根据name和age字段去除重复值,重复值留1条数据,其他的重复值标记为status=0mysql 5.6版本SQL语句(版本不一样sql可能会有变化)UPDATE t set status=0 WHERE id in (select id from (SELECT id FROM t where name in( S...

2020-01-13 15:38:58 326

原创 python 读取sql server 中文字符乱码问题?sql server 中文乱码问?

1、连接数据库是采用 utf-8charset="utf8"2、内容采用手动编码方式text.encode('latin-1', errors='ignore').decode('gbk', errors='ignore')

2020-01-13 15:20:53 1319

转载 mysql 启动服务/关闭服务

1、启动服务器命令net start mysql 如果拒绝访问,使用管理员方式打开cmd,再启动2、停止服务命令net stop mysql 在设置了密码的情况下的命令为:mysqladmin -u root -p shutdown...

2019-12-26 17:05:18 135

转载 mysql 设置root账号密码,更改账号密码

方法1 用SET PASSWORD命令11、打开终端win+r输入cmd回车即可打开;2、通过mysql -u用户名 -p指定root用户登录MySQL,输入后回车会提示输入密码。3、修改MySQL的root用户密码,格式:mysql> set password for 用户名@localhost = password('新密码'); 例子:mysql> set passwor...

2019-12-26 17:00:04 283

原创 _csv.Error: field larger than field limit (131072)

_错误:字段大于字段限制该问题是因为用csv读取文件的时候,出现字段数据过大,导致超过字段默认限制,而无法读取。因此,需要在使用csv读取文件前,先设置下csv字段显示大小。csv.field_size_limit(500 * 1024 * 1024)with open('test.csv') as file: rows = csv.reader(file) for ...

2019-11-19 21:08:16 3065

原创 python 爬虫返回521

今天爬取网站返回状态码521,经过分析发现是JS混淆加密,以下是具体破解代码:import execjsimport reimport requestsimport timeurl = 'http://www.mps.gov.cn/n2254536/n2254544/n2254552/n6636622/n6636639/c6641737/content.html'headers ...

2019-09-29 16:59:58 1448 2

原创 pandas 读写mysql数据库 csv文件

一、读取mysql数据#方式一import pymysqlimport pandas as pdpd.set_option('display.max_columns', None) #显示所有列pd.set_option('display.max_rows', None) #显示所有行con = pymysql.connect(host,user,password,db=db...

2019-09-06 18:32:21 279

转载 Charles 抓包使用教程

Charles是在 Mac 下常用的网络封包截取工具,在做移动开发时,我们为了调试与服务器端的网络通讯协议,常常需要截取网络封包来分析。Charles 通过将自己设置成系统的网络访问代理服务器,使得所有的网络访问请求都通过它来完成,从而实现了网络封包的截取和分析。除了在做移动开发中调试端口外,Charles 也可以用于分析第三方应用的通讯协议。配合 Charles 的 SSL 功能,C...

2019-08-29 16:12:38 144

原创 破解js加密--python execjs库 执行js代码

import execjsimport reimport requestsimport time#测试urlurl = 'http://gaj.chifeng.gov.cn/default.php?mod=article&fid=230&s63642044_start=0'session = requests.session() #存储cookierespon...

2019-08-21 18:55:01 1054

原创 scrapy定时爬取和断点测试

scrapy定时爬取:每10分钟爬取一次 爬虫文件下新建main.py文件,代码如下: import osimport timewhile True: print('启动爬虫程序.........') os.system("scrapy crawl spider") print('爬虫结束..........') time.sl...

2019-07-26 16:40:45 353

转载 pandas用法大全

一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd1 22、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel(...

2019-07-25 14:17:51 98

转载 Redis数据库

Redis如何通过本机客户端访问远程服务器端远程服务连接:$redis-cli-h127.0.0.1-p6379windows下 :redis-cli.exe -h 127.0.0.1 -p 6379redis 127.0.0.1:6379>远程服务停止:$redis-cli -h 172.168.10.254 -p6379 shutd...

2019-07-25 12:13:47 137

原创 列表生成式

#列表生成式list0=[1,2,3,4,5,6]#要求生成另一个表[1,4,9,16,25,36]new_list=[x*x for x in list0]print(new_list)#生成一个新的列表,列表中的元素是list0中的偶数new_list=[x for x in list0 if x%2==0]print(new_list)#使用双层循环进行排列组合list1=...

2018-04-23 09:04:08 159

原创 迭代器 iterable

#迭代器 iterable#----可以理解为另外一种遍历,使用forin可以遍历的类型都是可迭代的类型 Iterablefrom collections import Iterable #导入模块from collections import Iterator#可以进行迭代的类型不一定是可迭代对象:Iterator#Iteratou 可迭代对象有一个特点:可以通过next获取下一个数据...

2018-04-23 09:03:08 121

原创 系统模块——OS

import ospath=r"E:\学习资料\day09\notes\day09陈仁丽4组\sort_package\__pycache__"#列出子目录#list_path=os.listdir(path)#print(list_path)#获取目录下的所有文件 用递归形式def get_file(path): if os.path.exists(path)==Fals...

2018-04-23 09:02:31 164

原创 系统模块——OS

#os-系统模块import os#获得操作系统的类型print(os.name) #返回nt表示windows系统,posix---->inux和Mac#获取操作系统的详细信息,windows不支持#print(os.uname)#获得系统指定变量下的内容---如:环境变量print(os.environ.get("path"))#获取当前目录 .print(...

2018-04-23 09:01:38 128

原创 生成器的概念

#生成器:生成器的出现是来避免快速生成一批数据,瞬即占用内存过大的问题#使用方式是当你需要数据的时候,去找生成器去拿,才会再内存中开辟空间#列表生成式是快速的生成一个列表,内存中开辟相应的空间#格式1:将列表中的[]换成()g=(x for x in range(100))#获取数据next()print(next(g))#如果生成器没有数据了,再去拿的话会报错li=[1,3,5,...

2018-04-23 08:59:12 217

原创 字典的操作dict[]

#字典的操作#与列表的对比:字典内存浪费比较多,查找和插入的速度特别快dic={"语文":78,"数学":89}#添加另外一组键值对dic["英语"]=75print(dic)#根据key获得value,key必须存在,否则报错value=dic["数学"]print(value)#另一个获得的方法,key不存在返回Nonevalue=dic.get("政治")print(v...

2018-04-23 08:57:44 378

原创 日历模块Calendar

#日历import calendar#获取指定年的日历res=calendar.calendar(2018,w=5,c=5)print(res)#获取指定月的日历res_month=calendar.month(2018,4,w=3)print(res_month)#判定年是否是闰年is_leap=calendar.isleap(2012)print(is_leap)#...

2018-04-23 08:56:13 257

原创 时间模块datetime

#时间模块 datetimeimport datetime#获取当前时间cuttent_time=datetime.datetime.now()print(cuttent_time)#只获取年月日cuttent_day=datetime.date.today()print(cuttent_day)#获取明天的日期tomorrow=datetime.date.today()+d...

2018-04-23 08:55:13 119

原创 时间模块Time

#时间模块#时间戳:表示从1970年1月1日凌晨开始按秒计算的一个偏移量#1、获取当地时间的时间元组import timelocal_time=time.localtime() #返回一个时间元组print(local_time)#在时间元组中获得年份year=local_time[0]print(year)#获取当前时间对应的时间戳seconds=time.time()...

2018-04-23 08:53:18 139

原创 查找算法——二分法查找

#二分法查找         #前提:这个列表是有序的(已经排好序的)list0=[23,34,56,78,89]key=12#设置初始区间值min_index=0max_index=len(list0)-1#设置起始区间索引mid_index=(min_index+max_index)//2while list0[mid_index]!=key: if list0[mid_...

2018-04-20 22:57:20 185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除