种地菜菜-CSDN博客

原创文本挖掘：流程

IG（特征选择），DF（文档频率），IF-IDF，ECE（期望交叉熵），X方，MI（文档互信息），WET（文档证据权重），OI，CC（相关系数）等常用的特征选择。LDA（线性特征抽取），PCA（主成分分析），FA（因子分析），SVD（奇异值分解），NMF（非负矩阵分解），LSI或者LSA（潜在语义分析）KNN，SVM，BP神经网络，Bayes，决策树，基于规则分类，组合算法。K-means，agent，divided，DBSCAN 等。（1）向量空间模型与布尔模型。在我前面的文章都有提到。

2020-05-03 16:54:37 226

原创 python-文本挖掘

通过求得的共现矩阵，画出下面的社交网络关系图，图中边的粗细代表关系的密切程度，边越粗表示两人的关系越密切，而节点的大小可以表示为该人的社交人脉强弱情况。个关键词如下表所示，可以发现与谍纸天眼相关的人物主要是宇文家族，此外，还有一些比较特别的词，如谍者、谍纸楼、谍纸令、杀宗、隐宗、兵宗、银宗等，通过这些关键词我们可以比较清楚的知道有关谍纸天眼的大部分信息。进行分析之前首先需要获取剧情的文本，因为剧中改编较多，为了尽量接近大家所熟悉的剧情，故没有直接爬取小说来进行分析，而是从百度百科上爬取每一集的剧情，

2020-05-03 16:51:27 990

原创 python-使用scikit-learn工具计算文本TF-IDF值

同时，如果同时计算“贵州”、“大数据”、“分析”的TF-IDF，将这些词的TF-IDF相加，可以得到整篇文档的值，用于信息检索。由IDF可以发现，当某个词在语料库中各个文档出现的次数越多，它的IDF值越低，当它在所有文档中都出现时，其IDF计算结果为0，而通常这些出现次数非常多的词或字为“的”、“我”、“吗”等，它对文章的权重计算起不到一定的作用。Scikit-Learn中的机器学习模型非常丰富，包括SVM，决策树，GBDT，KNN等等，可以根据问题的类型选择合适的模型，具体可以参考官网文档，

2020-05-03 16:44:14 585

原创 python-层次聚类算法

简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性，距离越小，相似度越高。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。构建了聚类的类型，我们还要能计算两个聚类的相似度。我们知道每个聚类都有一个代表该聚类的中心点，我们通过两个聚类的中心点，计算两个聚类的相似度。另外我们还添加了聚类的id代表聚类在聚类树中的深度，以及左右子聚类的相似度的值。3、将最相似的两个聚类化为一个聚类，即用两个聚类的均值点做为新聚类替换原有的两个聚类。

2020-05-03 16:38:14 1236

LLE流形学习，目前只有比较广。

可以直接使用，文件比较齐全，流形学习，目前只有比较广。

2019-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人