自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

成功唯有积累,没有奇迹。

工棕号:diting_dapeng

  • 博客(8)
  • 资源 (15)
  • 收藏
  • 关注

原创 关键词提取

一般来说,TF-IDF算法和TextRank算法就可以满足大部分的关键词提取任务。但是在某些场景,基于文档本身的关键词提取还不是非常足够,有些关键词不一定会显式的出现在文档中,对于一些需要表现出文中没有的关键词提取,即叫主题模型。在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...

2019-06-30 21:00:12 441

原创 N-GRAM文本挖掘

N-GRAM介绍:N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3,…wn组成,用公式表示N-Gram语言模型如下:P(T)=P(w1)∗P(w2∣w1)∗p(w3∣w1w2)∗p(wn∣w1w2w3...)P(...

2019-06-27 17:15:21 949

原创 tensorflow遇到ImportError: Could not find 'cudart64_100.dll'错误解决

在安装tensorflow的时候,当用ipython使用import tensorflow出现的错误ImportError: Could not find 'cudart64_100.dll'简答:仔细分析错误的类型、原因搞清自己的tensorflow以及CUDA版本换用对应版本进行解决一. 错误类型原因...

2019-06-21 21:37:55 73951 53

原创 NLP基础-命名实体识别(一)基于规则

命名实体识别命名实体识别(Named Entity Recognition,简称NER)与自动分词,词性标注一样,命名实体识别也是自然语言处理中的一个基础任务,其目的是识别语料中的人名、地名、组织机构名等命名实体。基于规则的通常有两种方法第一是基于正则表达式的匹配,第二可以通过StanfordCoreNLPStanfordCoreNLP方法:ner.py: 主调用文件,用来读取文本#...

2019-06-13 11:19:11 7122

原创 Stanford CoreNLP配置常见错误总结

参考链接How to setup and use NLTK

2019-06-13 08:29:07 1991 1

原创 NLP基础-词性标注应用去除停用词

词性标注词性标注的应用就是通过词性来进行过滤,从而得到更有效的文本。方法是首先自定义字典–确定不想要的词性,第二步是把文件读进来后,先进行分词,根据分词的词语的词性对照词典中的词进行排除并重新拼接组合。关键字提取...

2019-06-07 21:56:40 4119

原创 NLP基础-准确分词(使用工具分词)

关于NLP相关包安装配置,可以参考:NLP工具包安装配置关于分词的原理可以参考:自然语言处理NLP-准确分词(原理)1. 加载字典来保证词可以分准对一些专业的名词来说,使用原有的词库可能无法很好的将词分开,比如在对医疗文本进行分类时,诸如:联合奥沙利铂、氟尿嘧啶单药等专用的药品名词。jieba中自定义词典的加载将开始没分准确的词放入字典中,就可以对其正确分词jieba中的词典,通过...

2019-06-04 21:37:15 1243

原创 NLP基本算法(一)-隐马尔科夫

关于NLP相关包安装配置,可以参考:NLP工具包安装配置关于分词的应用可以参考:

2019-06-04 21:35:52 704

nlp-requirements安装包

NLP开发工具集成包,其中包括numpy,nltk,gensim,tensorflow,jieba,Stanford NLP,Hanlp, 通过pip install -r nlp-requirements.txt 一键进行下载

2019-06-08

hanlp词性列表.docx

Hanlp词性列表,包括词性及注解,以及常用及不常用词的选择

2019-06-07

神经网络设计 . 美国 Hagan.清晰版

神经网络设计 . 美国 Hagan.清晰版,深度学习入门必备!

2019-01-03

MATLAB神经网络原理与实例精解pdf

MATLAB神经网络原理与实例精解,含有深度学习中的所有模型及文档及程序说明,深度学习入门必备!

2019-01-03

《机器学习实战:基于Scikit-Learn和TensorFlow 》高清中文

《机器学习实战:基于Scikit-Learn和TensorFlow 》高清中文,必备书籍!!!!

2018-12-25

selenium webdriver第三版

对于Selenium更加详细的操作和使用,推荐一本书《selenium webdriver(python)第三版》,该书详细的讲解了webdriver的用法

2018-09-03

时序分析经典教程

时序分析经典教程,由老师推荐,里面论述详细合理,具有逻辑性,是本好读物!

2018-08-24

phantomjs.exe

用于python的自动化登陆phantomjs的使用,以及对自动化测试会有很大帮助,资源确信可用,放心1!!

2018-04-05

python自动化登陆chromdriver

用于python的自动化登陆senlenium的使用,以及对自动化测试会有很大帮助,资源确信可用,放心1!!

2018-04-05

中文识别语言库tesseract.ocr

中文识别语言库tesseract.ocr,可以进行图片中文识别,而且亲测没有乱码!!!!

2018-03-10

tesseract-ocr-setup-3.02.02-图片识别

tesseract-ocr-setup-3.02.02-图片识别,可以使用,尽情放心!~!

2018-01-22

使用python以及工具包进行简单的验证码识别

一份非常好的例子demo,带尼学会验证码识别,轻松的步入大门!

2018-01-22

链栈程序总结(比课本上的简单)

链栈的程序,相当简单方便!你值得拥有!比课本上的还要简单噢!

2015-11-17

蓝桥杯真题软件类

蓝桥杯软件真题,软件类,马上快要比赛了,这是比不可多得的宝藏噢!

2015-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除