自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小平的霍格沃兹博客

平淡而无奇,积极且上进

  • 博客(9)
  • 收藏
  • 关注

原创 python去除文本停用词(jieba分词+哈工大停用词表)

停用词表上github搜索中文停用词就有很多版本,百度、哈工大等。(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上)https://github.com/goto456/stopwords代码import jiebaimport json# 读取停用词列表def get_stopword_list(file): with open(file, 'r', encoding='utf-8') as f:

2021-05-06 11:00:03 21324 1

原创 解决Ubuntu18.04 安装 Pycharm 输入中文(亲测)

需求由于本人的项目要处理中文领域的NLP相关问题,需要训练BERT模型,为避免Windows 出现蓝屏的情况,所以选择了使用Ubuntu来跑代码。又由于处理的中文领域,不可变要在写代码过程使用中文,所以需要在Pycharm平台上输入中文。下面分享我解决的方法运行平台:Ubuntu 18.04Pycharm 社区版 2019.03.01我也测试了几个Pycharm 版本,20年的版本大概率不行,大家不妨多测试。我是看了这篇博客()后# 系统设置Ubuntu系统中:选择设置——>区域和

2021-01-07 17:00:49 1438 4

原创 LCSTS中文摘要数据集预处理

本文章主要参考了该博客,并在其上做了适当修改和补充。感谢作者。https://blog.csdn.net/u012495579/article/details/103697824文章目录前言一、安装bs4和tqdm?二、完整代码代码部分跟是在文章头的博客基础上做了修改。三、修改部分总结前言LCSTS数据集中三个部分PART_I.txt 共计2400591对 摘要-文本对PART_II.txt 共计10666对 摘要-文本对PART_III.txt 共计1106对 摘要-文本

2020-12-16 17:58:24 2439 6

原创 Tensorflow 2.0 Cbow skip-gram

文章目录前言1 发现问题2 论文工作3 CBOW模型3.1 框架结构总览3.2 网络结构3.2 CBOW(示例):4 skip-gram模型4.1 框架结构总览4.2 网络结构4.3 代码如下(示例):5 总结6 想方设法证明总结6.1 设计语义-预料数据集。6.2 探索 维度 - 训练数据量 - 精确度 三者的关系6.3 与已有模型精确度比较前言下文参考以下论文,该论文发表于2013年。1 发现问题1)之前的研究多数把单词word(中文是分词的结果)作为原子单元,词与词之间没有相似度的

2020-09-27 20:41:16 996 1

原创 Tensorflow2.0 复现 NNLM

说明阅读论文"A Neural Probabilistic Language Model" made by Yoshua Bengio.al,2003 。通过Tensorflow2.0 进行复现。论文在百度学术免费下载。文章目录说明前言一、什么事语言模型Lanuage Model,有什么用?二、目标函数1.计算联合概率分布2.简化计算过程2.神经网络架构2.1 理解网络架构![在这里插入图片描述](https://img-blog.csdnimg.cn/20200921162051333.png?x

2020-09-22 11:21:45 607 1

原创 基于遗传算法的多阈值图像分割

目录1 摘要2 介绍3Otsu阈值分割3.1经典Otsu法3.2多阈值Otsu法3.3 多阈值Otsu法24 遗传算法设计4.1 个体编码4.2 交配操作4.2.1 单位置单点交叉4.2.2 多位置单点交叉4.3 变异操作4.4 选择操作3.5 适应度函数设置5 测试结果分析5.1 测试一5.2 测试二5.3 测试三5.4 测试四6 结论7 参考8 代码部分8.1 测试脚本ga_muti_thre...

2020-07-08 08:01:48 7507 5

原创 Matlab的子函数和嵌套函数

主函数:(1)一个.m文件只有一个主函数,且正常情况下主函数函数名应该与文件名相同。test.m文件:function [m,n] = test(x,y)%test functionend子函数:(1)如果有的函数很短就几行代码,不想多创建一个.m文件,且只对某些函数使用。可以允许在一个.m文件中创建多个子函数。(2)子函数也之间可以相互调用。子函数与子函数、子函数与主函数之间数...

2020-04-20 17:01:13 6931 1

原创 遗传算法的数学基础——模式定理

模式定理通过数学公式对遗传算法进行理论分析。

2020-04-01 16:29:24 2779

原创 遗传算法的选择阶段———“轮盘赌”法

**遗传算法的选择阶段———“轮盘赌”法**个体被选中的概率与累积概率成正比(累积概率也与适应度函数值成正比)。首先,计算各个个体的选择概率,设群体的规模为N,表示其中N个个体的适应值。则第i个个体被选中的概率由下式给出:伪代码:选择一个个体进入种群(如要选择多个个体请加外循环)(a) R=random(0,1), S=0, I=0【R表示从0~1随机选一个数】(b) IF S...

2020-03-26 16:18:05 23981 10

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除