nlp
ROOOOOOM
room
展开
-
Stanfordcorenlp FileNotFoundError: [WinError 2] 系统找不到指定的文件。
说明你没装Java或者没配Java环境变量原创 2020-04-29 17:57:28 · 1458 阅读 · 1 评论 -
Ubuntu18下python(Anaconda)中安装hanlp与简单使用测试无需安装Java
sudo apt install gccsudo apt install g++pip install hanlp测试:参考:https://github.com/hankcs/HanLP原创 2020-01-17 20:54:02 · 771 阅读 · 1 评论 -
stanford NLP 介绍与安装,使用
介绍stanford NLP 拿过全球分词第一名,用Java写的,有python接口jieba只支持中文分词安装:下载https://stanfordnlp.github.io/CoreNLP/download.html解压后然后再下个中文模型的jar包:stanford-chinesecorenlp-2018-02-27-models.jar放到解压后的目录下简单使...原创 2020-01-17 08:48:37 · 1341 阅读 · 0 评论 -
Unsupervised Learning Algorithms 无监督学习算法总结
• K-means• PCA (Principal Component Analysis)• ICA (Independent Component Analysis)• MF (Matrix Factorization)• LSA (Latent Semantic Analysis)• LDA (Latent Dirichlet Allocation)原创 2020-01-05 14:17:53 · 458 阅读 · 0 评论 -
Supervised Learning Algorithms 监督学习算法总结
• 线性回归(Linear Regression)• 逻辑回归 (Logistic Regression)• 朴素⻉叶斯 (Naïve Bayes)• 神经⽹络 (Neural Network)• SVM (Support Vector Machine)• 随机森林 (Random Forest)• Adaboost• CNN (Convolutional Neural Networ...原创 2020-01-05 14:15:12 · 571 阅读 · 0 评论 -
专家系统的缺点 (drawback) 与优点
drawback:•设计⼤量的规则 (Design Lots of Rules)• 需要领域专家来主导 (Heavily Reply on Domain Expert)• 可移植性差 (Limited Transferability to other Domain)• 学习能⼒差 (Inability to Learn)• ⼈能考虑的范围是有限的 (Human Capacity is L...原创 2020-01-05 14:11:05 · 6013 阅读 · 0 评论 -
专家系统的推理引擎
基于符号主义的专家系统的推理引擎主要用的是离散数学的知识,而基于连接主义的ML与DL主要是概率论知识原创 2020-01-05 13:48:10 · 727 阅读 · 0 评论 -
解决因该词词典中不存在而句子概率为零问题----------------Smoothing
Add-one Smoothing即Laplace Smoothing 拉普拉斯平滑MLE(最大似然估计)PMLE(wi∣wi−1)=c(wi−1,wi)c(wi)\mathrm{P}_{\mathrm{MLE}}\left(\mathrm{w}_{\mathrm{i}} | \mathrm{w}_{\mathrm{i}-1}\right)=\frac{\mathrm{c}\left(...原创 2020-01-03 16:27:34 · 234 阅读 · 0 评论 -
语言模型的评估
用预测下一个词的方式来判断Perplexity原创 2020-01-02 23:52:12 · 227 阅读 · 0 评论 -
训练语言模型
就是根据马尔科夫假设计算概率的过程UnigramBigram1st order markov assumption原创 2020-01-02 23:45:24 · 439 阅读 · 0 评论 -
Markov Assumption 解决Language Model 的Sparsity问题
即相当于商品推荐一个月兴趣转移假设即马尔科夫假设:1st order markov assuption2st order markov assuption原创 2020-01-02 23:31:15 · 242 阅读 · 0 评论 -
Noisy Channel Model
p( text ∣ source )∝p( source ∣ text ) p (text) \mathbf{p}(\text { text } | \text { source }) \propto \mathbf{p}(\text { source } | \text { text ...原创 2020-01-02 22:51:31 · 696 阅读 · 0 评论 -
层次过滤应用之问答系统问题相似度匹配的简化
可以使用搜索引擎的倒排索引来简化复杂度原创 2020-01-02 22:29:10 · 255 阅读 · 0 评论 -
distributed representation 之训练词向量的几种方法
训练词向量时输入一般是1B 即包含10^9个单词(tokens)的一个超长字符串/10B/100B可以使用的训练模型:Skip-GramGloveCBowRNNLSTMMF(Matrix Factorization)Gaussian Embedding可以认为得到的词向量就代表单词的意思???但训练词向量太耗费资源,一般都有现成的词向量但垂直领域还需要自己训练...原创 2020-01-02 20:32:31 · 509 阅读 · 0 评论 -
Stemming : one way to normalize 英文单词的标准化
Stemming 不考虑得到的单词是否符合语法,但Lemmazation可以得到符合语法的标准化结果/* Porter stemmer in Java. The original paper is in Porter, 1980, An algorithm for suffix stripping, Program, Vol. 14, no. 3, pp ...转载 2020-01-02 19:42:01 · 367 阅读 · 0 评论 -
动态规划十大经典问题
https://people.cs.clemson.edu/~bcdean/dp_practice/原创 2020-01-02 16:55:41 · 1039 阅读 · 0 评论 -
中文分词之维特比算法(将分词问题转化为最短路径问题)
维特比算法相当于用-log(p(每个单词的概率))把生成所有可能的分割和选择最好的分割(可以用语言模型)两步合成了一步,而且降低了算法的复杂度其中,p(每个单词的概率)=一本书中词的频率/总词数 (最好先人工分词)...原创 2020-01-02 15:32:22 · 349 阅读 · 1 评论 -
LTP官网
http://ltp.ai/download.html原创 2019-10-13 12:54:17 · 955 阅读 · 0 评论 -
哈工大 pyltp 在windows10下的安装使用
https://mlln.cn/2018/01/31/pyltp%E5%9C%A8windows%E4%B8%8B%E7%9A%84%E7%BC%96%E8%AF%91%E5%AE%89%E8%A3%85/#menu原创 2020-05-26 17:42:15 · 627 阅读 · 0 评论 -
基于bi-lstm+CRF算法的深度学习NLP工具--------FoolNLTK的安装
注意不是pip-conda install fool而是pip-conda install foolnltk使用import fool依赖包absl-py-0.8.1 astor-0.8.0 foolnltk-0.1.6 gast-0.2.2 google-pasta-0.1.7 grpcio-1.24.1 keras-applications-1.0.8 keras-prep...原创 2019-10-12 23:33:43 · 545 阅读 · 0 评论 -
NLP领域期刊介绍
https://blog.csdn.net/m0_37306360/article/details/76006255转载 2019-08-29 22:28:03 · 1837 阅读 · 1 评论 -
斯坦福glove 词向量词嵌入文件国内服务器下载
https://www.jianshu.com/p/c15150fe44b9转载 2019-10-04 23:50:38 · 593 阅读 · 0 评论 -
AI系统 VS BI系统
AI系统是帮人做决策BI商业智能只是把数据做了一层包装,实际做决策的还是人例如所谓的大数据可视化原创 2019-10-05 10:32:16 · 468 阅读 · 0 评论 -
NLP之字符串预处理(未完)
s = ' hello, world!'print(s.strip())print(s.lstrip(' hello, '))print(s.rstrip('!'))sStr1 = 'strchr'sStr2 = 'r'nPos = sStr1.index(sStr2)sStr1 = sStr1.upper()sStr1 = sStr1.lower()sStr1 = 'a...原创 2019-08-17 22:57:42 · 237 阅读 · 0 评论