数据挖掘
中志融一
自强
展开
-
K近邻算法(全解)
最近实验室成立了一个兴趣小组,每周给师弟师妹们。讲解一些算法,把讲解过程的PPT放在上面,供大家学习参考。 0、问题的提出 我们在实际生活中经常有一句话:“物以类聚,人以群分”我们总是以相近的事物去评价一个人,同时我们生活中经常有一句话叫做:“你的朋友决定了你的价值”,今天讲解的这个算法就是一这个理念来设计的一个算法,这个算法虽然简单,但是却在我们的生活中用处非常的大。原创 2017-11-13 21:58:27 · 756 阅读 · 0 评论 -
基于朴素贝叶斯的新闻分类
贝叶斯理论 在我们有一大堆样本(包含特征和类别)的时候,我们非常容易通过统计得到 p(特征|类别) .大家又都很熟悉下述公式: #coding: utf-8import osimport timeimport randomimport jieba #处理中文#import nltk #处理英文import sklearnfrom sklearn.naive_ba...原创 2018-03-09 21:44:10 · 971 阅读 · 0 评论 -
TfidfVectorizer in scikit-learn : ValueError: np.nan is an invalid document
我使用scikit-learn中的TfidfVectorizer学习从文本数据中提取一些特征。我有一个带标志的CSV文件(可以是+1或-1)和一个评论(文本)。我将这些数据导入DataFrame,以便运行Vectorizer。 代码如下:import pandas as pdimport numpy as npfrom sklearn.feature_extraction.text ...原创 2018-07-07 19:05:58 · 8821 阅读 · 5 评论