![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习常用库
文章平均质量分 67
herosunly
985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次,其中包括阿里云天池安全恶意程序检测第一名,科大讯飞恶意软件分类挑战赛第三名,CCF恶意软件家族分类第四名,科大讯飞阿尔茨海默综合症预测挑战赛第四名,科大讯飞事件抽取挑战赛第七名,Datacon大数据安全分析比赛第五名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
展开
-
适用于超小规模数据集的分类器
文章目录1. 背景1.1 研究方法1.2 数据集和代码链接2. 测试结果3. 关于数据独立同分布的思考4. 结论5. 代码和数据集链接1. 背景1.1 研究方法 随着深度学习如火如荼的发展,对大数据的训练和学习已经非常成熟,广泛应用在学术界和工业界。但在不少打工人中往往会遇到样本个数在100到1000之间的超小规模数据集。例如,孕妇在整个妊娠期间的详细指标以及随后的新生儿情况。目前业界还不清楚这种情况下的最佳实践是什么,为了对此进行研究,制定了以下的研究方法:获取大量用于分类的小型基准数据集,总原创 2021-04-13 11:02:20 · 5221 阅读 · 16 评论 -
使用PIL进行图片处理
1. 随机旋转和随机缩放from PIL import Imageimport numpy as npimport osdef scale_rotate_img(image, rotate_min=20, rotate_max=70, scale_min=0.4, scale_max=0.8): random_rotate = np.random.randint(rotate_m...原创 2020-03-27 11:28:58 · 9161 阅读 · 0 评论 -
大数据处理经验(持续更新)
先取少量数据跑代码,确保代码没有语法和逻辑错误,再放到大量数据上面跑。原创 2020-03-29 20:20:24 · 6164 阅读 · 3 评论 -
gensim使用汇总
1. 训练word2vec2. 使用词向量2.1 求多个词向量的平均值3. 其他3.1 查看word2vec模型的词:3.2 unable to import 'smart_open.gcs', disabling that module原创 2020-05-08 10:35:48 · 4890 阅读 · 0 评论 -
matplotlib使用汇总
画图之前首先要设置画布(figure)对象,使得后面的图形输出在这块规定了大小的画布上,其中参数figsize设置画布大小。# 得到画布对象plt.figure(figsize=(width, height)) # unit is inch(英寸)# 绘制子图,其中index是从1开始计算plt.subplot(nrows, ncols, index, **kwargs) # 将画布分为nrows*ncols个子区域, index表示第N个子区域设置坐标轴的起始和终止值plt.xlim原创 2020-07-21 15:47:50 · 1393 阅读 · 2 评论 -
pandas使用汇总
0. 官方文档下载地址1. 取label和API序列1.1 取label1.2 取API序列2. 对DataFrame整行/列进行操作3. 显示完整信息4. pd.read_csv5. groupby后如何进行处理6. pd.read_json() ValueError: Trailing data7. value_counts取其中的最大值8. isin9. 更多原创 2020-04-26 17:12:26 · 10710 阅读 · 7 评论