- 博客(69)
- 收藏
- 关注
原创 jd算法笔试
先是30道选择题:涉及C++、python代码理解、SMO算法、信息增益率、python的object、朴素贝叶斯的高偏差低方差京东 2022暑期实习生 算法工程师在线考试 - 正式考试阶段编程题|20.0分2/2最大中位数时间限制: 3000MS内存限制: 589824KB题目描述:小明有一个长度为 n 的序列,他想从中挑选出一个子序列,使得这个子序列的中位数最大。显然,小明只需要选择原序列中最大的那个数就行,因此他加大难度,给出了一个限制:原序列中相邻的两个数至少有一个被选到子序.
2022-04-16 21:05:39 2391
原创 python 获取一个目录下的所有文件
本质就是树的遍历,python不太会写递归,用了个辅助栈import os, jsonframe_root = 'xxx'frame_list = []stack = [frame_root]while len(stack) != 0: node = stack.pop() for sub_node in os.listdir(node): sub_node = node + '/' + sub_node if not os.path.is
2021-06-05 10:56:56 90
原创 torchtext 使用案例
from torchtext.vocab import GloVefrom torchtext.data import Example, BucketIterator, Iteratortokenize = lambda x: x.split()MAX_LEN = 100TEXT = data.Field(sequential=True, tokenize=tokenize, lower=True, fix_length=100)LABEL = data.Field(sequential=Fa.
2021-04-26 11:02:56 324 2
原创 服务器迁移注意
scp 改anaconda路径,export一个就行 改jupyter notebook路径 改代码里的jued绝对路径,所以平时还是得写相对路径呀
2020-09-13 19:46:24 259
原创 python 超时跳过
下载大量数据时很好用import eventlet eventlet.monkey_patch() with eventlet.Timeout(2, False): #超时时间为2秒 # do print('ok')print('fail')
2020-07-14 14:30:37 653
原创 图像匹配
反正都是计算相似度吧衣服匹配https://blog.csdn.net/qq_38284961/article/details/102488234粗匹配
2020-07-09 22:07:25 178
原创 AI竞赛 汇总
kagglehttps://www.kaggle.com/天池https://tianchi.aliyun.com/competition/gameList/activeListDataCastlehttps://www.dcjingsai.com/v2/index.htmlDataFountainhttps://www.datafountain.cn/competitionsKescihttps://www.kesci.com/home/competitionbiendata...
2020-07-09 21:52:42 738
原创 验证码识别 CRNN+CTCLoss
CRNN+CTCLoss:https://zhuanlan.zhihu.com/p/43534801每次,关键在于 不定长序列的处理和CTCLosshttps://zhuanlan.zhihu.com/p/67415439,按这个格式做Loss的input就行encode和decode还没懂
2020-07-08 18:28:15 599
原创 python 句法分析 by nltk+StanfordNLP
其实没啥技术含量啦(麻烦在于配置java与Stanford环境)这是只用StanfordParser的:import sysimport nltk,osfrom nltk.parse.stanford import StanfordParsernltk.internals.config_java("D:/Program Files/Java/jdk1.8.0_111/bin/java.exe")java_path = "D:/Program Files/Java/jdk1.8.0_111/
2020-07-08 16:37:08 2060 3
原创 图像深度(depth)预测
帮别人写个东西,需要单目depth prediction,然后根据depth产生3D光栅图。深度预测使用的是monodepthhttps://github.com/nianticlabs/monodepth2,然后
2020-07-06 16:20:27 2986
原创 pytorch 手写GRU
刚开始想直接https://discuss.pytorch.org/t/where-to-find-torch-c-variablefunctions-module/41305/5https://github.com/pytorch/pytorch/blob/master/aten/src/ATen/native/RNN.cpp
2020-07-04 16:07:14 2215 3
原创 数据结构刷起来【python版】
二元序列n=int(input())def F(i, x, ans): if i == n: print(ans.zfill(n)) return for x in range(2): ans += str(x) F(i+1, x, ans) ans = ans[:-1]# F(0,0, '')for i in range(pow(2,n)): ans = '' while(i):
2020-06-14 15:51:44 192
原创 numpy save & load
1.保存为二进制文件(.npy/.npz)numpy.save保存一个数组到一个二进制的文件中,保存格式是.npy参数介绍numpy.save(file, arr, allow_pickle=True, fix_imports=True)file:文件名/文件路径arr:要存储的数组allow_pickle:布尔值,允许使用Python pickles保存对象数组(可选...
2020-04-12 10:13:09 3933
原创 pytorch 关于权重(初始化、固定)
权重初始化:emb那种可以直接from_pretrained固定权重利用requires_grad=False,这样只是不更新,但是还是会计算并占用显存class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d...
2020-04-09 17:45:53 3099
原创 安装杂物之坑?
emmm帮人装DAOBAN software时,记得把网断了,今天装了一个大玩意儿,最后一步检测出来了,一连串rollback真是回到解放前。。。下载境外文件慢用国内镜像:anaconda,要用清华镜像的地址下载 linux下可以直接wget来download linux安装anaconda教程,更新conda的下载源为清华镜像,然后关键的是conda后不要加上 -c pytorch,...
2020-01-15 23:14:46 335
原创 python 小工具
将.ipynb文件转.pyimport oscurrent_path=os.getcwd()for root,dirs,files in os.walk(current_path): for fileObj in files: extension=os.path.splitext(fileObj)[-1] if extension=='.ipynb...
2019-12-01 19:32:45 126
原创 git 常见用法
本地有三个地方:工作区、缓存区、版本库;需要从左到右步步传,然后才能到与云端交互最常用的几个命令上传本地文件有修改,否则会说 already最新了 工作区到缓存区:git add . 缓存区到版本库:git commit -m "my_log_content" 添加远程git的URL:git remote add origin https://git地址.git 上传到远程gi...
2019-11-24 21:54:50 113
原创 二分类的决策边界 绘制
import numpy as npimport matplotlib.pyplot as pltX = np.array([[1,1],[2,1],[1,2],[2,2]])#试一下异常的y = np.array([0,1,1,0,])#.reshape(-1,1)plt.scatter(X[:,0], X[:,1], c=y)plt.show()X.shape, y.shape...
2019-10-28 22:23:02 1914
原创 基于 ACE语料库的 信息抽取与文本分类
一、背景介绍1.事件抽取:根据ACE中的定义,事件由事件触发词(Trigger)和描述事件结构的元素(Argument)构成,元素和事件之间的关系定义为角色(Argument role)。在后面的任务中,我们首先需要提取出语料库中的每句话,以及它所对应的类别,作为分类任务的训练数据。(暂时没有考虑触发词了)2.ACE语料(Automatic Content Extraction...
2019-10-19 10:04:10 2257 2
原创 互联网情感分析(nlp文本分类任务)
传统方法中,这次主要考虑OOP,但是可能代码写的有些鬼畜,这些还是需要慢慢体会,如何通过OOP更好提高可维护性等问题。突然发现我这样写并不好,不方便用pipeline把特征工程和模型的参数一起搜参。。。 所以第一次写还是可以基于过程来写,然后改成OOP,感觉自己上来设计OO还是hold不住10.19目前分了4部分PreProcess 预处理 MyModel 特征工程+ML模型 Ev...
2019-10-19 10:03:41 878
原创 工程能力
意识层面:基础操作文档要先看一遍,知道他们能干嘛,如numpy/pandas,这样在需要的时候查就可以了(避免压根不知道某些功能而手写浪费时间切容易出错) 特别基础的tool能都熟练使用(记住),这样效率才能提高,否则每次都查算什么鬼 学习Github上看优秀工程代码,跑通、研究架构与细节怎么写的 练习自己搭建、修改、创造模型, 注意总结工具/方法:刚学的python的impor...
2019-10-11 12:10:17 171
原创 2019 中科院 信工所二室 夏令营 笔试面试经验
二室考核分四项心理素质测试 专业笔试 英语面试 专业面试心理素质测试就是网上常见的心理测试题,但是这个居然是要用2B铅笔手涂两百多道题??简直一下回到高考时代啊,哦不四六级也是这样的。这个也没什么吧,正常人也不会有太大问题。专业笔试45min,至少分了3套卷,因为我抽到的是C卷哈哈,10个选择题,是专业课知识,没有数学:给出前序和中序遍历,求后续遍历 给出入栈和出栈顺...
2019-09-30 09:31:04 3269
原创 2019武汉大学计算机学院 夏令营经验分享
笔试部分数据结构6个选择题,有:中序线索二叉树、KMP...大题:问如果要对一个顺序表插入、查找都是O(logn)的复杂度,应该如何组织这个顺序表 写一个算法判断一个无向图是不是树程序设计大题:程序改错,一个求平均数的,应该是5个错,有数组遍历从0开始、sum参数没初始化、地址传参等 代码填空,将一个单链表reverse 给出S个学生的10门成绩,求10门成绩均分最...
2019-09-30 09:31:02 1881
原创 2019同济软件学院 夏令营题目
50分英语笔试10分的英文缩写的全拼 英译汉:CDMA信道啥的 英译汉:java存储过程? 汉译英:瀑布模型100分专业笔试哈夫曼编码 弗罗伊德算法 软工题:类图+ER图+数据库 计算机视觉题?设计自动泊车系50分英语面试self-introduction why tongji master or phd dream company hobby150专业面试:...
2019-09-30 09:30:59 2582
原创 2019清华深研院与网研院 保研复试经验
深研院今年刚改为“深圳国际研究院”,说是把所有专硕全部放到深圳培养,所以我这个排名8的都过了初审哈哈,虽然做了很多准备,但是最终还是无缘了,好在这场体验还是很棒的,也认识好几个非常优秀的同学。笔试6智力题+4数学题;夏令营的:预推免的:绳子15min改成45min。。。 装水问题变成沙漏问题,都是一样的 有一段路,总共3人,一人有摩托车,同时可以待一个人,问3人同时到终...
2019-09-30 09:30:51 5112 3
原创 python 数据操作(numpy、re)
一维数组可直接统计学计算多维的制定某行或列也可以 r = np.arange(36).reshape((6,6))得到的1到36的二维数组(一般不说矩阵,就说几维数组,这样可以统一称法与用法) np.array([1,2,3])可以把list或df?变成array,但是必须要统一元素类型(这也是他比list效率高的一个原因) reshape很常用 每次控制维度常常思想不清楚,x是选“行...
2019-09-05 17:38:24 318
原创 决策树(可视化、手写dt)
import numpy as npimport pandas as pddef lrisTrain(): #预处理-引入鸢尾数据: from sklearn.datasets import load_iris iris = load_iris() print(iris_class, iris_feature_E) from sk...
2019-09-05 16:33:21 385
原创 区块链 初探
目的:去中心化,让每个用户能参与到交易账单的记录中,而不是全部由 eg银行来做区块block:每一个打包的交易信息。链chain:把区块(时间顺序的交易信息)连接起来问题:why 打包:有奖励,奖励是比特币;如何选打包人:看谁能先解密出sha256?的一个hash算法,这个过程也就是“挖矿” 时间不同步 伪造问题...
2019-09-01 14:34:38 132
原创 python opencv 人脸识别
导包、加载imageimport cv2print(cv2.__version__)img = cv2.imread('jj.jpg')调用人脸识别模块自带的,需要调用安装的site-packages\cv2\data 下的 haarcascades文件夹里的这些东西,还不是很懂face_detector = cv2.CascadeClassifier("haarcas...
2019-08-30 17:49:50 2998
原创 爬虫·悠哉网旅游数据,并保存至mysql数据库
导包import requestsimport urllib from bs4 import BeautifulSoupimport pymysqlimport openpyxlimport os获取浏览器headerheader = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.3...
2019-08-30 10:42:19 577
原创 IDE使用技巧(pycharm、jupyter)
服务器watch -n 0.5 nvidia-smi 一直查看pycharmmain直接出来jupyter鼠标按着ctrl 可以直接两行一起打字所有的IDE都可以:按住Alt可以随便框选codeblocksF9编译+运行。F5设置断点...
2019-08-29 10:42:02 142
原创 爬取 空气质量数据
某时刻全国所有城市AQ使用urllib进行http请求,bs解析为tree结构import urllib.requestfrom bs4 import BeautifulSoupurl='http://www.pm25.in/rank'#空气rankhtml=urllib.request.urlopen(url)data=html.read()#执行完html就变成空了,所以我在...
2019-08-28 22:06:48 1581 1
原创 python 爬虫基础
HTTP 请求库urllib 或 requestsurllib.request请求页面(requests是第三方的,比urllib慢一点) html = urllib.request.urlopen(url) data = html.read() html.geturl() 获取地址,没想到应用场景 html.getcode() 获取状态码,200说明是正常访问 下载...
2019-08-28 09:25:00 133
原创 python 基础杂记&好用技巧
好用的zip:(顺带df.iterrows()) for x,y in zip(self.df_train.iterrows(), self.df_test.iterrows()):#取出每一行的row。个人习惯 ij是index,xy是val corpus.append(str(x[1]['title'])+';'+str(x[1]['content']))#...
2019-08-26 14:49:16 142
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人