数据分析
黄超然
这个作者很懒,什么都没留下…
展开
-
Local Outlier Factor 算法(以Boxplot探测LOF离群值)及python手写(非sklearn)
local outliers “本地离群值”,能够在基于密度不同的数据分布下,探测出各个不同密度集群边缘的离群值。LOF是基于密度的离群值探测算法,通过计算样本的local outlier factor(翻译过来应该是本地离群值因子)以判断该样本是否为离群值。LOF四部曲k-distance设定一个整数 k 和一个点 o ,点 o 的k-distance为 k-distance(o) = ɛNk(o) 为点o的 ɛ-近邻的个数,Nk(o)为整数,通常Nk(o)就等于kɛ 是点 o 与第 k 个原创 2020-08-01 00:01:36 · 1104 阅读 · 0 评论 -
Python NetworkX +Gephi利用PageRank和K-Clique分析并可视化社会网络
先导入即将用到的包import matplotlib.pyplot as pltimport osimport networkx as nximport pandas as pdimport numpy as np原创 2019-12-17 22:32:07 · 2466 阅读 · 2 评论 -
(Python爬虫/自然语言处理)BeautifulSoup+webdriver爬电视剧文本数据并统计Tfidf以进行相似度处理和文本聚类
近来很闲,在优酷爬个2019年内地剧的简介,然后给宝贝女友做个简陋的电视剧推荐。在python准备好需要用到的包,大概是import reimport timeimport requestsfrom bs4 import BeautifulSoupimport numpy as npfrom selenium import webdriverfrom selenium.webdri...原创 2019-12-17 14:56:23 · 1116 阅读 · 0 评论 -
通过Python做葡萄酒成分与质量的关系分析并可视化--GBDT/随机森林特征选取
葡萄酒成分与质量关系分析 -- 通过GBDT以及Random Forests进行特征选取在UCI下载葡萄酒数据集,链接:https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/ 红酒有1599个样本,白葡萄酒有4898个样本,本文使用红酒的数据集,文件名为winequality-red.csv数据预处理先...原创 2019-12-15 15:44:35 · 5484 阅读 · 4 评论