![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
curry3030
这个作者很懒,什么都没留下…
展开
-
Machine Learning(一) Multi-Normial Bayes and Bernoulli Bayes
Multi-Normial Bayesclass MultinomialNB(object): def __init__(self, train, test, vocab, alpha=1): self.n = 0 self.vocab = vocab self.alpha = alpha self.n_classes ...原创 2019-12-31 15:28:07 · 240 阅读 · 0 评论 -
自然语言处理(一)规则分词
一、中文分词技术简介在英语中,单词本身就是词的表达,一篇英语文章就是“单词”加分隔符(空格)来表示的,在汉语中,词以字为基本单位的,但是一篇文章的语义表达却依然是以词来划分的。因此,在处理中文文本时,需要进行分词处理,将句子转化为词的表示。这个切词的过程就是中文分词,它是通过不同的算法利用计算机自动识别出句子的词,在词间加入边界标记符,分割出各个词汇。由于分词的主要困难在于分词的歧义问题,对于...原创 2019-07-02 00:04:09 · 1559 阅读 · 0 评论 -
自然语言处理(二)统计分词(隐马尔可夫模型)
一、统计分词简介随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法渐渐成为主流,其主要思想是把每个词看作是词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的而次数越多,就证明这相连的字很可能是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能会构成一个...原创 2020-01-03 19:16:07 · 1530 阅读 · 0 评论 -
自然语言处理(三)文章高频词提取
一、高频词汇提取简介高频词一般是指文档中出现频率较高且并非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档,可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论的焦点。其中高频词提取其实就是自然语言处理中的TF(Term Frequency)策略。二、数据集下载及算法介绍数据集下载地址:https://github.com/nlpinaction/le...原创 2019-07-05 21:24:22 · 11406 阅读 · 0 评论 -
处理pandas出现warning: “A value is trying to be set on a copy of a slice from a DataFrame.”
报错代码:col_names = Train_DataFrame.columns.values.tolist()train_data = Train_DataFrame[col_names[2:]]age_mean = train_data['Age'].mean()train_data['Age'] = train_data['Age'].fillna(age_mean)使用pa...原创 2019-09-04 10:10:17 · 7295 阅读 · 1 评论