文本挖掘
搬砖老头
仰望星空,脚踏实地!天道酬勤,机会总是留给有准备的人!
展开
-
2021-04-16
fasttext和word2vec的区别不同的是,CBOW的输入是目标单词的上下文,fastText的输入是多个单词及其n-gram特征,这些特征用来表示单个文档;CBOW的输入单词被onehot编码过,fastText的输入特征是被embedding过;CBOW的输出是目标词汇,fastText的输出是文档对应的类标。 值得注意的是,fastText在输入时,将单词的字符级别的n-gram向量作为额外的特征;在输出时,fastText采用了分层Softmax,大大降低了模型训练时间。这两个知识点在前文原创 2021-04-16 10:46:25 · 173 阅读 · 0 评论 -
cbow和skip-gram
http://www.hankcs.com/nlp/word-vector-representations-word2vec.html cbow和skip-gram的详解转载 2017-08-28 21:58:34 · 1290 阅读 · 0 评论 -
自动化提取关键字
http://blog.csdn.net/wy_0928/article/details/73799825 提取关键字转载 2017-09-22 18:46:11 · 6961 阅读 · 0 评论 -
java的文本规则实现
http://blog.csdn.net/wang1127248268/article/details/76944552 java的实现文本规则过滤转载 2017-09-23 09:53:56 · 346 阅读 · 0 评论 -
fudandemo
https://github.com/FudanNLP/fnlp/tree/master/fnlp-demo/src/main/java/org/fnlp/demo/nlp 复旦nlpdemo转载 2017-09-23 10:33:08 · 228 阅读 · 0 评论 -
语义歧义消除
语义消歧 可以看作分类问题。一个词W有K个含义,对W消歧 就是确定W在特定句子中究竟使用了哪一个含义,即把W分到K类中的一个。分类的依据则是和W邻近的词,即W的上下文C。歧义可以分为两类:一类是词的语义有多种,如“bank”,可以是银行,也可以是河岸;另一类是词本身的词性也是多样的,如predicate,既能作为名字,也能作为动词。对于前者,可能需要与W相隔较远的其他词参与消歧,转载 2017-09-23 15:19:18 · 6853 阅读 · 0 评论 -
hanlp中文处理包-文档
http://www.hankcs.com/nlp/hanlp.html hanlp的文档转载 2017-08-30 15:55:40 · 1487 阅读 · 0 评论 -
层次聚类
http://python.jobbole.com/85481/ python的层次聚类转载 2017-09-28 19:31:14 · 336 阅读 · 0 评论 -
seq2seq和自动摘要textrank的学习
https://github.com/DengYangyong/textrank_summarization/tree/master/textrank_%E6%98%93%E4%BC%9A%E6%BB%A1https://github.com/keras-team/keras/blob/master/examples/lstm_seq2seq.pyhttps://blog.csdn.net...原创 2019-10-09 21:40:00 · 368 阅读 · 0 评论 -
tensorflow的lstm
https://www.leiphone.com/news/201705/llCMyHDMQey8I94F.html tensorflow实现lstm的例子转载 2017-09-06 15:51:17 · 388 阅读 · 0 评论 -
one-hot转为distributed representation表示
http://blog.csdn.net/Elmo66/article/details/53735591 词表示http://blog.csdn.net/u014518506/article/details/75096260 词表示转载 2017-08-28 15:39:26 · 1045 阅读 · 0 评论 -
lstm情感分析
github上可以参考的代码https://github.com/BUPTLdy/Sentiment-Analysis/blob/master/code/Sentiment_lstm.pyhttps://github.com/life-is-good/CommentFilterhttps://github.com/changhuixu/LSTM-sentiment-an转载 2017-09-06 10:05:31 · 3118 阅读 · 0 评论 -
文本挖掘的学习博客--一系列
http://blog.csdn.net/Fighting_No1/article/details/51000066 很多学习地方转载 2017-08-08 22:02:31 · 312 阅读 · 0 评论 -
文本挖掘--数据文本处理-java
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类。一、文本信转载 2017-08-08 22:15:58 · 5544 阅读 · 0 评论 -
keras中LSTM文本挖掘
转载自:http://spaces.ac.cn/archives/3414/ ,数据在转载链接处有下载import pandas as pd #导入Pandasimport numpy as np #导入Numpyimport jieba #导入结巴分词from keras.preprocessing import sequencefrom keras.optimizers im转载 2017-08-12 08:46:42 · 1910 阅读 · 1 评论 -
文本挖掘--DNN和LSTM的比较
http://www.cnblogs.com/doublemystery/p/5092014.html 转载链接转载 2017-08-12 08:56:51 · 2494 阅读 · 0 评论 -
文本挖掘
http://blog.csdn.net/itplus/article/details/37969979转载 2017-08-14 20:20:02 · 256 阅读 · 0 评论 -
nlp的相关资源文档,nltk,pynlp,nlpir,gensim
http://pyltp.readthedocs.io/zh_CN/latest/api.html pyltp文档http://blog.csdn.net/mebiuw/article/details/52232562 nlpir文档http://python.usyiyi.cn/translate/nltk_python/ch01.html nltk文档原创 2017-08-26 16:37:28 · 280 阅读 · 0 评论 -
哈工大和中科院的文本处理系统
http://blog.csdn.net/churximi/article/details/51174182 链接转载 2017-08-26 17:07:25 · 441 阅读 · 0 评论 -
词向量化
http://wiki.jikexueyuan.com/project/deep-learning/word-vector.html 极客学院博客--词向量化转载 2017-08-27 21:15:09 · 926 阅读 · 0 评论 -
文本挖掘--文本特征选择-java实现
特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根据预先设定好的阈值来选择出所有其值超过这个阈值的单词。 根据特征选择过程与后续数据挖掘算法的关联,特征选择原创 2017-08-08 21:58:15 · 3066 阅读 · 1 评论