lovive
码龄15年
关注
提问 私信
  • 博客:273,602
    273,602
    总访问量
  • 20
    原创
  • 2,225,766
    排名
  • 89
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江西省
  • 加入CSDN时间: 2010-03-15
博客简介:

自然语言处理技术

博客描述:
机器学习和自然语言相关算法和技术
查看详细资料
个人成就
  • 获得118次点赞
  • 内容获得39次评论
  • 获得634次收藏
创作历程
  • 5篇
    2018年
  • 25篇
    2017年
  • 4篇
    2016年
成就勋章
TA的专栏
  • 自然语言处理技术
    13篇
  • android学习笔记
  • 算法
    5篇
  • 推荐算法
  • 大数据
    4篇
  • python爬虫学习
    2篇
  • 小技巧
    3篇
  • python学习
    11篇
  • 机器学习
    7篇
  • 自然语言处理
    14篇
  • 图像处理技术
  • TensorFlow学习
    3篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

自然语言处理算法之集成算法基础以及boosting与bagging简介

在机器学习和统计学习中,集成学习(Ensemble Learning)是一种将多种学习算法组合在一起以取得更好表现的一种方法,机器学习下的集成学习主要是指有限的模型相互组合,而且可以有很多不同的结构,在自然语言处理过程中,特别是文本分类,很多时候集成学习的表现相对于其它的学习方法要好很多。1个体与集成集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。如上
原创
发布博客 2018.01.18 ·
1355 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

自然语言处理之中文分词器-jieba分词器详解及python实战

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使用python实战介绍。jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登
原创
发布博客 2018.01.07 ·
57162 阅读 ·
37 点赞 ·
4 评论 ·
298 收藏

自然语言处理之中文分词器详解

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。1基于词典分词算法基于
原创
发布博客 2018.01.07 ·
11260 阅读 ·
2 点赞 ·
0 评论 ·
41 收藏

推荐系统实践--基于用户的协同过滤算法和python实现

基于邻域的算法是推荐系统中最基本的算法,该算法不仅在学术界得到了深入研究,而且在业界得到了广泛应用。基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。我们先来看看基于用户的协同过滤算法,基于物品的协同过滤算法大体思路和基于用户的差不多,可以自己参考对比学习。基于用户的协同过滤算法每年新学期开始,刚进实验室的师弟总会问师兄相似的问题,比如
转载
发布博客 2018.01.02 ·
5807 阅读 ·
3 点赞 ·
0 评论 ·
28 收藏

linux tar (打包.压缩.解压缩)命令说明 | tar如何解压文件

#压缩tar -czvf ***.tar.gztar -cjvf ***.tar.bz2#解压缩tar -xzvf ***.tar.gztar -xjvf ***.tar.bz2+++++++++++++++++++++++++++++++++++++++++++++ 简介参数:-c  :建立一个压缩档案的参数指令(create 的意思);-x  :解开一个压缩档案的参数指令! -t  
转载
发布博客 2018.01.02 ·
3339 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

python之Tqdm库实现进度条功能

Tqdm是一个快速可扩展的Python进度条,可以在python长循环中添加一个进度提示,这样用户就可以知道程序的进度情况,实时的监测,用户只需要封装任意的迭代器tqdm(iterator),就可以了。1)安装Tqdm直接使用pip install tqdm就可以进行安装或者使用github上最新的版本:ip install -e git+https://github.co
原创
发布博客 2017.12.29 ·
4616 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

tensorflow学习笔记(2):tf.clip_by_value,tf.expand_dims等函数的用法

1)tf.clip_by_value的用法该函数主要是为了防止,gradiant计算得到的值太大或者太小tf.clip_by_value(A, min, max):输入一个张量A,把A中的每一个元素的值都压缩在min和max之间。小于min的让它等于min,大于max的元素的值等于max。import tensorflow as tfimport numpy as npdat
原创
发布博客 2017.12.29 ·
988 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

谈谈Tensorflow的Batch Normalization的使用

tensorflow 在实现Batch Normalization (各个网络层输出的结果归一化,以防止过拟合)时,主要用到一下两个API。分别是1)tf.nn.moments(x, axes, name=None, keep_dims=False) ⇒ mean, variance: 其中计算的得到的为统计矩,mean 是一阶矩,variance 是二阶中心矩 各参数的另一为
原创
发布博客 2017.12.29 ·
7272 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

covariate shift现象的解释

一、什么是covariate shift?在论文中经常碰到covariate shift这个词,网上相关的中文解释比较少。你可能会在介绍深度学习Batch Normalization方法的论文到中看到covariate shift这个词,并且所有看过这篇论文的或者实际做过工程的人,都知道BN这种归一化手段很好用,可以避免covariate shift那么covariate shift到
转载
发布博客 2017.12.26 ·
10364 阅读 ·
9 点赞 ·
1 评论 ·
21 收藏

TF-IDF原理详解以及python实践

TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关
原创
发布博客 2017.12.25 ·
9348 阅读 ·
4 点赞 ·
0 评论 ·
28 收藏

Python 中通过csv的writerow输出的内容有多余空行的解决办法

Python中,通过csv的writerow输出内容:?1234567    #output all info dict list    outputFp =open(gConst['csvFilename'], 'a+');    csvWriter =
转载
发布博客 2017.12.17 ·
2171 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python一些编码的转换格式问题

python经常有一些编码格式的问题西面有几种转码的方式:unicodestring = u"Hello world" # 将Unicode转化为普通Python字符串:"encode"  utf8string = unicodestring.encode("utf-8")  asciistring = unicodestring.e
原创
发布博客 2017.12.17 ·
523 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习利器Scikit-learn的安装

对于windows环境,安装Scikit-learn比较复杂,如果是Mac 或者Liunix会比较简单,直接安装anaconda使用conda或者pip install + 程序包,不需要下载。对于windows。首先打开加州大学底下一个实验室的网站,下载以下安装包:1、Numpy+MKL:http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy2、
原创
发布博客 2017.12.13 ·
882 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

anaconda下安装库出现UnsatisfiableError问题的解决办法

利用命令行在Anaconda Prompt 安装configparser利用命令conda installconfigparser出现问题如下:(D:\Program Files\Anaconda3) C:\Users\lee>conda install configparserFetching package metadata ...........Solving pac
原创
发布博客 2017.12.13 ·
33475 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

TensorFlow学习笔记(1):LSTM相关代码

LSTM是seq2seq模型中经典的子结构,TensorFlow中提供了相应的结构,供我们使用:tensorflow提供了LSTM实现的一个basic版本,不包含lstm的一些高级扩展,同时也提供了一个标准接口,其中包含了lstm的扩展。分别为:tf.nn.rnn_cell.BasicLSTMCell(), tf.nn.rnn_cell.LSTMCell()tensorflow
原创
发布博客 2017.12.13 ·
688 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

word2vec 中的数学原理详解:基于 Negative Sampling 的CBOW和Skip-gram模型

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读
转载
发布博客 2017.12.13 ·
2921 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

word2vec模型中基于 Hierarchical Softmax 的CBOW和Skip-gram模型

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读
转载
发布博客 2017.12.13 ·
491 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

word2vec 中的数学原理背景知识详解(1)

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读
转载
发布博客 2017.12.13 ·
275 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python 使用argparse模块解析命令行读取参数简介

在多个文件或者不同语言协同的项目中,python脚本经常需要从命令行直接读取参数。万能的python就自带了argprase包使得这一工作变得简单而规范。PS:optparse包是类似的功能,只不过写起来更麻烦一些。如果脚本很简单或临时使用,没有多个复杂的参数选项,可以直接利用sys.argv将脚本后的参数依次读取(读进来的默认是字符串格式)。比如如下名为test.py的脚本:impo
转载
发布博客 2017.12.11 ·
740 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

XGBoost相关参数的解释

XGBoost参数在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters:General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linear model)。Booster parame
转载
发布博客 2017.12.07 ·
357 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多