数据挖掘
文章平均质量分 53
sinat_36115361
这个作者很懒,什么都没留下…
展开
-
Python自然语言处理:文档相似度计算(gensim.models)
目录1. tf-idf 2. 仅频率 3. 仅出现与否 4. word2vec 5.doc2vec 6.N-gram 7.其他本文对Python的第三方库gensim中的文档相似度计算方法进行探索。官方文档见:https://github.com/RaRe-Technologies/gensim/tree/develop/gensim/models原创 2022-04-12 11:22:31 · 4170 阅读 · 0 评论 -
R语言实现多维尺度分析(Multidimensional Scaling,MDS)
【降维】R语言实现多维尺度分析(Multidimensional Scaling)MDS原创 2022-03-29 16:49:07 · 3957 阅读 · 0 评论 -
R语言实现行为特征分析(Behavioral Profile,BP)+层次聚类分析(hierarchical agglomerative cluster analysis,HAC)
R语言实现corpus-based lingustic中的Behavioral Profile(BP, 行为特征理论)原创 2022-03-29 09:52:42 · 2227 阅读 · 1 评论 -
为什么pip list里面的包版本和import的包版本不一致?
原因是:pip安装和卸载的位置如下,import的位置如上,是不同的解决方案:删掉版本错误的那个的文件夹,保留正确的那个即可原创 2022-01-25 13:57:30 · 1801 阅读 · 0 评论 -
机器学习应用——Titanic数据挖掘二分类预测
数据预处理1.1 缺失值填补参考:https://blog.csdn.net/u014365862/article/details/51769308embarked 上船地点cabin 船舱号age 年龄数值型:随机森林(或者线性模型)预测填充字符串:出现最多的字符串填充1.2 观察各个变量与目标的关系参考:https://blog.csdn.net/guoxinian/art...原创 2020-05-23 12:03:13 · 394 阅读 · 0 评论 -
Vaex安装及使用记录
一 安装1 windows尝试失败(无论是pip 还是anaconda)2 Ubuntu conda 一次成功二 使用1 首先将csv文件转换成hdf5文件# 注意:csv转换成hdf5时column的名称不能含有中文pandas_df = pd.read_csv(file_path)vaex_df = vaex.from_pandas(pandas_df, copy_index=F...原创 2020-04-03 23:42:39 · 3696 阅读 · 8 评论 -
LTP语言技术平台引用外部字典
LTP语言技术平台分词引用外部字典文件的类型一定是纯text,也就是没有后缀.txt的那种,我只知道在pycharm中新建的file类型是纯text.注意引用外部字典之后,加载函数不再是load(cws_model_path)而是变成了load_with_lexicon(cws_model_path, ‘外部字典的位置和名称’)分词和词性都可以引用外部字典。...原创 2018-11-06 20:34:23 · 3073 阅读 · 8 评论 -
cannot import name dataset;'sklearn' is not a package
Python pycharm引用报错:cannot import name dataset;‘sklearn’ is not a package出现的一个可能原因:py文件的名称起成了:sklearn。。。原创 2018-11-25 18:39:22 · 1549 阅读 · 6 评论 -
dataframe对某一列数据sklearn标准化
出错的代码:import sklearn.preprocessing as preprocessingscaler = preprocessing.StandardScaler()age_scale_param = scaler.fit(df[‘Age’])df[‘Age_scaled’] = scaler.fit_transform(df[‘Age’], age_scale_param)...原创 2018-12-23 16:02:16 · 9286 阅读 · 0 评论