- 博客(25)
- 资源 (7)
- 收藏
- 关注
原创 文件md5计算
要计算视频文件的MD5哈希值,你可以使用Python的hashlib模块。你可以根据自己的需要适当增加read()方法中的分块大小,以提高文件读取效率。一般来说,建议将分块大小设置为2的幂次方,例如4096、8192等。在这个示例中,我们将分块大小设置为8192字节。这意味着我们每次从文件中读取8192字节数据,并将其传递给MD5哈希对象进行更新。这样做可以减少文件读取次数,并提高计算效率。请注意,分块大小的设置应该根据具体情况而定,如果文件较小,则可以适当减小分块大小;如果文件较大,则可以增加分块大小。
2023-06-08 18:21:21
721
原创 BERT模型微调的基本步骤(demo)
在这个例子中,我们首先加载了预训练的BERT模型和对应的tokenizer。然后,我们准备了一些文本数据和对应的标签,使用tokenizer处理文本数据,然后创建了一个DataLoader。接下来,我们设置了优化器,开始训练模型。最后,我们保存了微调后的模型。请注意,这只是一个非常基础的例子,实际上在进行模型微调时,你可能需要处理更复杂的数据,选择合适的损失函数和优化器,以及进行模型性能的评估等等。对于预训练模型的微调,一个常见的例子是使用BERT模型进行情感分析任务。
2023-05-17 09:49:05
1388
原创 java多线程复制文件
package com.xxx.test;import java.io.*;import java.util.ArrayList;import java.util.concurrent.LinkedBlockingQueue;public class copyfiles { public static void main(String[] args) throws IOException, InterruptedException { LinkedBlockingQu
2021-09-28 13:19:14
134
原创 pandas分组聚合
df.groupby(["uuname"]).count()df.groupby(["uuname"])["beform"].count()df.groupby(["uuname"]).agg({"tt":[sum],"beform":[min]})df.groupby(["uuname"]).agg({"tt":['sum'],"beform":['min','count']})df.groupby(["uuname"]).agg({"tt":np.sum,"beform":np.coun
2021-09-04 16:32:11
70
转载 【Python】 多线程并发threading & 任务队列Queue
https://www.cnblogs.com/franknihao/p/6627857.html
2020-08-06 10:52:00
159
原创 requests proxy代理设置
import requestsproxy = { "http": "socks5://xx.xx.xx.xx:8080", 'https': 'socks5h://xx.xx.xx.xx:8080'}#proxiy = {# 'http': 'socks5://user:pass@host:port',# 'https': 'socks5h://user:pass@host:port'# }url = 'https://www.google.com'r = r
2020-07-06 18:32:30
826
原创 schtasks设置windows定时任务
一、创建开机启动脚本schtasks.exe /create /tn "restart" /ru SYSTEM /sc ONSTART /tr "E:\dataojo\commond\restart.bat"二、创建普通定时任务schtasks /create /tn print_hello_task /tr d:\temp\print_hello.bat /sc minute /mo 10 /st 08:00:00 /et 21:00:00三、查询任务状态schtasks /query /t
2020-06-28 12:04:50
698
1
原创 将pandas数据显示到现有的flask html表中
import pandas as pddf = pd.DataFrame({'col1': ['abc', 'def', 'tre'], 'col2': ['foo', 'bar', 'stuff']})from flask import Flaskapp = Flask(__name__)@app.route('/')def hello_...
2020-04-30 13:29:43
741
原创 postgesql服务常用命令
systemctl start postgresql //启动服务器systemctl restart postgresql //重启服务器
2020-04-29 16:31:59
196
原创 MySQL CURRENT_TIMESTAMP创建和更新
CREATE TABLE `test` ( `id` INT PRIMARY KEY AUTO_INCREMENT, `msg` VARCHAR(256), `ts_create` TIMESTAMP DEFAULT CURRENT_TIMESTAMP, `ts_update` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDAT...
2020-03-04 15:26:50
1085
原创 vaex 将csv转换为hdf5
I have a massive CSV file which I can not fit all into memory at one time. How do I convert it to HDF5?We are working to make this process an easy one liner. In the meantime, consider this strategy: ...
2020-03-04 13:57:35
3710
原创 mysql笔记
1、linux查看mysql运行状态及启动停止方法查看mysql运行状态service mysqld status一、启动1、使用linux命令service 启动:service mysqld start2、使用 mysqld 脚本启动:/etc/inint.d/mysqld start3、使用 safe_mysqld 启动:safe_mysqld&二、停止1、...
2020-02-25 14:28:43
72
原创 vim常用命令
1、跳到第几行 跳转到第9行9G2、跳转到文件结尾G3、删除所有内容# 先用G转到文件尾:1,.d# 在vi中 ,“.”当前行 ,“1,.”表示从第一行到当前行 ,“d”删除# 删除第9行到第200行的内容# 先用200G转到第200行:9,.d4、撤销操作u 撤销(反悔了,撤销操作)5、新增一行o O 表示:o表示在光标所在行下一行插入一行,跟Ente...
2019-11-09 13:54:06
203
原创 linux权限快捷方式
权限 数值rwx rw- r– 764rw- r– r– 644rw- rw- r– 664rwxrwxrwx 777该命令有两种用法。一种是包含字母和操作符表达式的文字设定法;另一种是包含数字的数字设定法。...
2019-11-06 18:38:24
214
原创 Python格式化输出百分比
a='{:.2%}'.format(42/50)b='%.2f%%' % (2.322)c=a[0:len(a)-1]d=float(c)print('a:%s'%a)print('b:%s'%b)print('c:%s'%c)print('d+1:%s'%(d+1))print(type(a))print(type(b))print(type(c))print(type...
2018-11-04 19:46:30
6247
转载 使用pandas进行数据清洗
转载出处:http://www.cnblogs.com/stream886/p/6021743.html目录:数据表中的重复值duplicated()drop_duplicated()数据表中的空值/缺失值isnull()&notnull()dropna()fillna()数据间的空格查看数据中的...
2018-10-24 15:44:04
286
原创 一款超级好用的股票财经数据接口包API
Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,Tushare返回的绝大部分的数据格式都是pandas DataF...
2018-10-01 10:21:05
4436
1
SPSS在时间序列预测中的应用
2018-11-24
matlab神经网络工具应用简介
2010-09-06
数学建模趋势外推法讲义
2010-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人