NeilGY
码龄10年
关注
提问 私信
  • 博客:148,677
    问答:1,276
    149,953
    总访问量
  • 34
    原创
  • 813,892
    排名
  • 57
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-03-14
博客简介:

NeilGY的博客

查看详细资料
个人成就
  • 获得70次点赞
  • 内容获得25次评论
  • 获得424次收藏
创作历程
  • 2篇
    2020年
  • 33篇
    2019年
  • 14篇
    2018年
  • 1篇
    2017年
成就勋章
TA的专栏
  • 推荐
  • 开发环境
    2篇
  • java
    5篇
  • VM虚拟机
    1篇
  • 大数据
    2篇
  • nginx
  • 多线程
  • 机器学习
    9篇
  • python
    5篇
  • 自然语言处理
    25篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习自然语言处理
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

spark-2.3.4-bin-hadoop2.7.tgz

发布资源 2020.03.06 ·
tgz

mac版idea快捷键

Compile and Run(编译和运行)按键 说明Command + F9 编译ProjectCommand + Shift + F9 编译选择的文件、包或模块Control + Option + R 弹出 Run 的可选择菜单Control + Option + D 弹出 Debug 的可选择菜单Control + R 运行Control +...
原创
发布博客 2020.01.07 ·
487 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

git常用指令

git init //初始化本地git环境 git clone XXX//克隆一份代码到本地仓库 git configuser.name//查看git用户名 git config user.email //查看git邮箱 git config --globaluser.name“github’s Name” //配置了一个全局的用户名 git config --global us...
原创
发布博客 2020.01.07 ·
323 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python实现基于最小堆的topk

class minHeap(object): def __init__(self, list,k): self.list = list self.k = k self.length = len(list) def swap(self,min_heap, child_index, parent_index): tem...
原创
发布博客 2019.12.04 ·
827 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

KMP算法python代码

问题:给定两个字符串a="sdfaabcddsdfssd",b="df"找出字串b在a中的下标位置。朴素模式匹配算法:def str_index(a,b,pos=0): i = pos j = 0 while i < len(a) and j < len(b): if a[i] == b[j]: j += 1 ...
原创
发布博客 2019.11.04 ·
400 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习中数据清洗和特征选择总结

一.数据清洗1.预处理:理解数据及数据特征(很重要)2.异常样本数据:将时间、日期、数值等转为统一格式 去除文本中不需要的特殊字符等 去除内容与字段不对应的情况,如:字段为性别,描述为姓名 数据去重 替换不合理值 核验多数据源数据关联时是否正确3.采样:数据不均衡问题:设置损失函数权重,少数类别增大损失系数 下采样/欠采样:从多数类别数据中随机抽取样本数据,使...
原创
发布博客 2019.08.03 ·
1271 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

机器学习中各种熵

本文的目录组织如下:【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联合熵、条件熵、互信息的关系【7】交叉熵【8】相对熵(KL散度)【9】熵在机器学习中的应用(贝叶斯、决策树、分类)1. 自信息:对事件不确定性的度量。自信息公式事件的不确定性越大(概率 pi 越小),自信息 I(pi) 越大。比如买彩票,中彩票的...
转载
发布博客 2019.08.02 ·
1160 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Mac下 Navicat Premium 12.1 版本破解

注:必须离线激活https://blog.csdn.net/wangyaodong915/article/details/82958372#commentsedit
转载
发布博客 2019.05.06 ·
1359 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

模型优化总结

模型准确率提高:1.从数据上做优化:收集更多训练数据,对数据分词,字向量、词向量的嵌入,对抗损失和虚拟对抗损失的加入等2.从算法上做优化:1.神经元调节。2.数据训练批次调节.3.dropout的加入。模型训练加速:通过队列的方式读取数据,和多线程的方式异步训练模型。摒弃同步读取数据、训练数据的方法。...
原创
发布博客 2019.04.08 ·
1237 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

基于互信息和左右熵的新词发现

互信息可以计算聚合度,左右熵可以计算自由度原文链接:https://www.jianshu.com/p/e9313fd692ef
原创
发布博客 2019.04.04 ·
1936 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

字典树

Trie树(字典树)方法介绍1.1、什么是Trie树Trie树,即字典树,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较,查询效率比较高。Trie的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。它有3个基本性质:...
转载
发布博客 2019.04.03 ·
225 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推荐系统描述

一、常见的推荐算法原理(时间、位置影响)目前常见的一些推荐如下:基于内容推荐:分析用户看过的内容(历史内容等 )再进行推荐。 基于用户的协同过滤推荐(UserCF):给用户推荐和他兴趣相似的其它用户喜欢的物品。 基于物品的协同过滤推荐(ItemCF):给用户推荐和他之前喜欢的物品相似的物品。 基于标签的推荐:内容有标签,用户也会因为用户行为被打上标签,通过给用户打标签或是用户给产品打...
转载
发布博客 2019.03.26 ·
769 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

模型准确率提高及优化加速

https://www.cnblogs.com/mrxsc/articles/6266584.html
原创
发布博客 2019.03.25 ·
990 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

transformer模型中的多头attention机制

转自:https://www.cnblogs.com/robert-dlut/p/8638283.html《Attention is all you need》中提出了多头attention机制,这篇论文主要亮点在于:1)不同于以往主流机器翻译使用基于RNN的seq2seq模型框架,该论文用attention机制代替了RNN搭建了整个模型框架。2)提出了多头注意力(Multi-head...
转载
发布博客 2019.03.21 ·
10020 阅读 ·
2 点赞 ·
2 评论 ·
16 收藏

gensim中word2vec的使用

https://www.cnblogs.com/pinard/p/7278324.html
原创
发布博客 2019.03.21 ·
306 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

word2vec原理总结

CBOW与Skip-Gram模型基础:https://www.cnblogs.com/pinard/p/7160330.htmlHierarchical Softmax的模型:https://www.cnblogs.com/pinard/p/7243513.htmlNegative Sampling的模型:https://www.cnblogs.com/pinard/p/7249903.h...
原创
发布博客 2019.03.21 ·
462 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

bert概述

bert原理:https://terrifyzhao.github.io/2019/02/18/BERT%E5%8E%9F%E7%90%86.htmlbert代码:https://terrifyzhao.github.io/2019/01/30/%E4%BD%BF%E7%94%A8BERT%E7%94%9F%E6%88%90%E5%8F%A5%E5%90%91%E9%87%8F.html...
原创
发布博客 2019.03.14 ·
625 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推荐算法概述

推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述    推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种:    1)基于内容的推荐:这一类一般...
转载
发布博客 2019.03.13 ·
701 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Transformer模型

模型讲解:https://terrifyzhao.github.io/2019/01/11/Transformer%E6%A8%A1%E5%9E%8B%E8%AF%A6%E8%A7%A3.html源码解读:https://terrifyzhao.github.io/2019/01/11/Transformer%E6%BA%90%E7%A0%81%E8%A7%A3%E8%AF%BB.html...
原创
发布博客 2019.03.12 ·
522 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

NLP-关键词提取

关键词提取算法一般也能分为有监督和无监督。1、有监督的关键词提取算法主要是通过分类的方式进行的,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。有监督的方法能够获取到较高的精度,但缺点是需要大批量的标注数据,人工成本过高。另外,会有大量的信息出现,一个固定的词表有时很难将信息的内容表达出来。2、而无监督的方法对数据要...
转载
发布博客 2019.03.11 ·
682 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多