python
喜欢Haibara
接小型爬虫任务,价格视情况决定
展开
-
CUDA Error: illegal error memory access 踩坑
笔者在实现一个transformer时,将nn.LayerNorm()层放到了Add_Norm模块的forward函数里,将模型搬到GPU上时一直报错,排查以后尝试将nn.LayerNorm替换为F.layer_norm,就没问题了!原创 2021-11-28 10:09:57 · 1515 阅读 · 0 评论 -
python List赋值操作
笔者在近期写代码时遇到一个有趣的问题,就是关于List赋值的事情。比如A = [1,2,3,4],假如把A赋值给B,即B=A,如果接下来我们对B进行B+=B操作,然后输出A,会发生什么事情呢?我们可以看到如下的结果,也就是对B的操作也影响到A了。A = [1, 2, 3, 4]B = AB += Bprint(A)# [1, 2, 3, 4, 1, 2, 3, 4]这是因为,在Pyhon中,List是当成一个类看待的,而A是类型为List的一个对象,python里面.原创 2020-12-07 13:59:41 · 851 阅读 · 0 评论 -
gensim计算余弦相似度采坑
假设有两个np.array, x1, x2x1 = np.array([1, 2, 3])x2 = np.array([2, 3, 4])如果将x1,x2直接投入cosine_similarity()计算会报错,需要将x1 reshape(1, -1),变成x1 = array([[1, 2, 3]]), x2同样处理。此外,计算出来的结果是array([[0.99258333]])形式,如果需要取出计算结果,用array[0][0],我在这里天真的将这个数据直接投进我的网络结构进行训练,一原创 2020-11-19 15:58:16 · 1054 阅读 · 0 评论 -
python爬取微博评论(通过xpath解析的方式)
前段时间笔者写了一份儿爬取微博评论的代码,是用了http://m.weibo.cn的接口,通过这个接口比较好的是代码比较好写,因为数据都是json格式的,规律性非常直观,属性json数据和字典操作的朋友都可以很快掌握,但是这个有个比较大的问题是基本限制了前一百页的内容爬取,而且cookie过期的比较快,所以现在提供一种新的方式是通过xpath方式解析http://www.weibo.cn这个入口。...原创 2019-04-12 10:46:21 · 5314 阅读 · 2 评论 -
python爬取中国知网(中国优秀硕士学位论文数据库)
笔者这几天受团队任务安排,需要写一份儿关于知网(中国优秀硕士学位论文数据库 入口:http://gb.oversea.cnki.net/kns55/brief/result.aspx?dbPrefix=CMFD)的代码,主要是爬取论文的作者信息、论文副标题、学位授予年度、学校、引用频次等,例如在关键词搜索一下医疗保险:表格的相关信息都可以爬取,点进每一篇文章以后,对应的关键词、副标题信...原创 2019-04-04 14:37:01 · 7311 阅读 · 0 评论 -
python爬取微博话题下面的帖子并存入excel文件
此次写的是python爬取微博话题下面的帖子,示例代码以爬取#转发这个杨超越#https://s.weibo.com/weibo/%23%E8%BD%AC%E5%8F%91%E8%BF%99%E4%B8%AA%E6%9D%A8%E8%B6%85%E8%B6%8A%23# -*- coding:utf-8 -*-__author__ = 'TengYu'import requests...原创 2018-11-28 11:27:59 · 4958 阅读 · 9 评论 -
Unicode equal comparison failed to convert both arguments to Unicode - interpreting问题解决
在写python爬虫时,在if s.get('item_name') == '性别': sex = s.get('item_content')这段代码的地方出现了上面的问题,意思是字符编码的问题,然后在网上查了一下,推荐的解决方式是import sysreload(sys)sys.setdefaultencoding('utf8')在代码前面添加如上几句语句,问题...转载 2018-11-28 23:50:26 · 4783 阅读 · 0 评论