- 博客(15)
- 收藏
- 关注
原创 自监督和无监督学习的差别
自监督学习和无监督学习都是无需人工标注数据的机器学习方法。自监督学习通过设计预训练任务来生成伪标签,帮助模型学习有用的特征表示,常用于提升下游有监督任务的性能。无监督学习则直接从未标注的数据中发现数据的结构和模式,用于数据探索和理解。这两种方法在不同的应用场景中都有广泛的应用。
2024-07-10 17:16:29 578
原创 常见的深度学习基础模块总结
然后输入embedding乘上Q其实还是可以理解成原Token表示(就加了个权重),乘上K后,就变成了token之间的正方形相关矩阵(假设输入“我爱你”,编码为123,那第一行相关矩阵是【1 * 1,1 * 2,1 * 3】)。再乘以一个V,V的每一列可以看成【1,2,3】,那么【QK】的第一行乘以V每一列,每个数结果都是【111+122+133】(乘号省略),这些数形成的列表,就是【QK】*V的第一行。在这个列表中,融合了1的自身情况与其他2,3token的相关情况,2,3的位置情况。
2024-05-17 09:28:09 1048
原创 selinium自动化爬虫记录
之前的问题:(非常之坑爹,xpath检查了好久都没发现哪有问题)https://blog.csdn.net/poundsPLUS/article/details/124544059?spm=1001.2014.3001.5502这两天爬了个动态渲染的网页,国外的网站,一开始挂梯子上去,总是加载error或空值,我当时就想着是不是因为爬墙又被认出啥东东的,就不敢用。后来才发现翻墙爬虫是真的快啊,其实是真的没有什么毛病的。就是有时候会给蹦出个登录窗口,像下面这样(我曾尝试过利用driver登录,妄想着就不
2022-05-04 12:52:22 1217
原创 关于生成列表,dataframe太大,内存溢出,程序以外中断的情况
可以直接指定index,start end;一定时间段,比如说1000个就进行一次输出,然后把本次的end设为下一次的start,然后到start+1000(本次的end)的时候输出;而再输出的时候再把本次的end(start+1000)再设为start如此往复;类似下图这样:之后再合并即可...
2022-04-06 12:00:28 437
原创 关于进程池在函数里面的dataframe的loc修改法就不行了
好无语啊,,有没有大神告诉我为什么开进程池的时候,在函数里面的dataframe的loc修改法就不行了,真的吐了
2022-02-24 13:33:58 220
原创 PermissionError: [Errno 13] Permission denied:‘xxx.csv‘
为了省事,我用python 绝对路径.py直接运行,,然后就报错了所以乖乖cd到文件目录下,再python 脚本名即可
2022-02-15 12:15:15 874
原创 xpath遇到的坑
<html><div> <div>123</div> <div>456</div> <div>789</div></div></html>如果你要遍历类似上面的某个div下的全部div,你要用:divs = item.xpath('html/div/div')然后你就可以:for div in divs, 对每个div进行操作xpath是从1开始的,不是从0开
2022-01-27 21:34:48 580
原创 正则关于search的group的巨坑
昨天写了一点正则,发现一个史前巨坑,就是re.search不能超过三个(?P<>.*?)的,具体的很可能还有其他限制,但从我调试的结果来看就是这样的——以下面这个代码段为例:AsdfAefwAfwefAqewq当正则下面这般时候,group不出type4base_obj = re.compile(r'A(?P<type1>.*?)A(?P<type2>.*?)A(?P<type3>.*?)A(?P<type4>.*?)',re.S)出来
2022-01-24 08:49:50 276
原创 关于代理协程爬虫的问题总结
最近在用代理文本爬虫,因为kaggle对某些信息的获取比较敏感,以sleep random 25的情况下仍然跑300个数据就gg了,显示‘too many requests’, 然后就得重新跑。我想这不行啊,这要跑到啥时候,然后就想着用代理跑。。我用的是快代理,私密代理的集中代理,得参照这文档 快代理使用文档根据经验,得设置这么几个参数:batch = 20 #每次的多少个数据(行)异步interval = 10 #每次隔 batch*interval次输出一次csv, 其中task每次异步bat
2022-01-10 15:51:42 1078
原创 皇后问题
回溯算法以皇后问题为例,个人认为根本在于如果这一行的条件不满足,就没办法进入到下一行的**“深挖”当中,相当于“中断”了。“中断”之后继续分析本行的上一行的其他列**(因为本行就是从上一行“深挖”下来的,所以挖不到东西就继续上一行的工作)。比如说第二行的某一列找到了,然后第3行的第3列也符合,但是到第四行遍历整列没有一个符合的,这时候便不会在第三行第三列的点深挖,此时便继续遍历第三行第四列、第五列、第六列是否满足。说一下个人浅见,感觉它与递归最大的区别在于,递归需要不断地返回结果(在下一层的计算完后,
2021-03-20 20:46:19 373
原创 E:最短路(迪杰斯特拉算法)
E:最短路总时间限制: 1000ms 内存限制: 65536kB描述有N(不大于10)座城市,编号为1至N,已知任意两个城市间距离(不超过1000的非负整数)。求从城市1至城市N的最短路。输入第一行输入N之后N行,每行N个整数,描述了城市间距离的邻接矩阵,其中第i行第j个表示城市i到城市j的距离。相邻整数用空格分开输出第一行输出最短路径长度第二行输出经过的城市编号,用空格隔开代码:#include<stdio.h>#include<iostream>usi
2021-03-17 14:58:50 141
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人