![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
bus_lupe
这个作者很懒,什么都没留下…
展开
-
聚类
聚类概述聚类常见算法划分法(分裂法) kmeans层级分析法密度分析法聚类三发kmeans算法概述随机选择k个点作为聚类中心计算各个点到这k个点的距离将对应的点聚到与他最近的这个聚类中心重新计算聚类中心比较当前聚类中心与前一次聚类中心,如果是同一个点,得到聚类结果,若为不同的点,则重复2-5kmeans算法实战# kmeans算法# 通过程序实现录取学生的聚类...原创 2019-10-23 23:00:25 · 287 阅读 · 0 评论 -
决策树
import pandas as pdimport osfrom sklearn.tree import DecisionTreeClassifier as DTCfrom sklearn.tree import export_graphvizBASE_DIR = os.path.dirname(os.path.abspath(__file__))fname = os.path.join...原创 2019-10-22 23:08:33 · 90 阅读 · 0 评论 -
Python数据分类实现过程
首先明确需求并对数据进行观察其次,确定算法确定步骤编程实现常见的分类算法KNN算法贝克斯方法决策树人工神经网络支持向量机(SVM)KNN算法实现步骤处理数据数据向量化计算欧几里得距离根据距离进行分类手写体数字识别训练数据测试数据pillow模块处理图片...原创 2019-10-18 22:38:56 · 1211 阅读 · 0 评论 -
数据建模的概述
数据建模指的是对现实世界各类数据的抽象组织,建立一个合适的模型对数据进行处理。在数据分析与挖掘中,我们通常需要根据一些数据建立起特定的模型,然后处理。模型的建立需要依赖于算法,一般,常见的算法有分类、聚类、关联、回归等。这一周我们主要搞定关联算法。...原创 2019-10-17 08:53:12 · 219 阅读 · 0 评论 -
文本相似度计算
相似度计算的步骤读取文档对要计算的多篇文档进行分词对分词后的文档整理成指定格式,方便后续计算计算出词语的频率【可选】对频率低的词语进行过滤通过语料库建立词典加载要对比的文档将要对比的文档通过doc2bow转换为稀疏向量对稀疏向量进行进一步处理,得到新语料库将新语料库通过tf-idf进行处理,得到tf-idf通过token2id得到特征数稀疏矩阵相似度,从而建立索引得到最...原创 2019-10-11 22:05:56 · 170 阅读 · 0 评论 -
文本挖掘
pip install jieba分词模式import jiebasentence = '我喜欢上海东方明珠'# 模式:全模式cut_all=True;精准模式cut_all=False;搜索引擎模式;# cut(句子,模式)# words = jieba.cut(sentence, cut_all=True)words = jieba.cut(sentence, cut_all...原创 2019-10-10 14:57:41 · 145 阅读 · 0 评论 -
数据规约
属性规约与数值规约概述属性规约数值规约主成分分析属性规约之主成分分析PCA算法from sklearn.decomposition import PCAimport pymysqlimport pandas as pddb = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', d...原创 2019-10-10 10:00:09 · 297 阅读 · 0 评论 -
数据变换
简单变换数据变换的目的是将数据转化为更方便分析的数据。简单变换通常使用函数变换的方式进行,常见的函数变换包括:开放、平方、对数等。数据规范化离差标准化–消除量纲(单位)影响以及变异大小因素的影响。(最小-最大标准化)x1 = (x - min) / (max - min)标准差标准化–消除单位影响,以及变量自身变异影响。(零-均值标准化)x1 = (x - 平均数) /...原创 2019-10-10 08:40:25 · 2298 阅读 · 0 评论 -
数据探索与数据清洗概述
数据探索的目的是及早发现数据的一些简单规律或特征,数据清洗的目的是留下可靠的数据,避免脏数据的干扰。这两者没有严格的先后顺序,经常在一个阶段进行。数据探索的核心数据探索的核心是:数据质量分析(跟数据清洗密切联系)数据特征分析(分布、对比、周期型、相关性、常见统计量等)数据清洗实战数据清洗可以按如下步骤进行:1.缺失值处理(通过describe与len直接发现、通过0数据发现)2...原创 2019-10-02 17:49:36 · 784 阅读 · 0 评论 -
读取和讯博客数据可视化分析
import pandas as pdimport numpyfrom matplotlib import pylabdf = pd.read_csv('./data/hexun.csv')# 查看多少行、多少列# print(df.shape)# df.values[第几行][第几列]print(df.values[1][1])# 转置Tdf2 = df.T# 阅读数y...原创 2019-09-30 16:44:47 · 1372 阅读 · 0 评论 -
matplotlib
文章目录折线图散点图改变颜色线条样式改变散点图点的样式加上标题坐标名自定义x、y轴范围同一区域回绘制多个折线直方图生成随机数生成具有正态分布的随机数绘制直方图设置直方图宽度、上下线添加取消轮廓子图在子图中绘图折线图import matplotlib.pylab as pylabimport numpy# 折线图x = [1, 2, 3, 4, 8]y = [5, 7, 2, 1, 5]...原创 2019-09-30 15:36:08 · 127 阅读 · 0 评论 -
padans导入数据
文章目录导入csv数据导入excel数据导入MySQL数据库里的数据导入html数据导入文本数据导入csv数据csv是一种常见的数据存储格式,基本上我们遇到的数据都可以转为这种存储格式。在Python数据分析中,我们可以使用pandas模块导入csv数据,接下来通过实战 讲解。import pandas as pddf = pd.read_csv('./sources/hexun.c...原创 2019-09-29 22:40:56 · 316 阅读 · 0 评论 -
padans
文章目录columns指定列名通过字典的形式创建df取前几行数据head取前5行head(n)取前n行取尾部数据describe转置Tcolumns指定列名c = pd.DataFrame( [[5, 6, 2, 3], [8, 4, 6, 3], [6, 4, 31, 2]], columns=['one', 'two', 'three', 'four'])...原创 2019-09-29 21:46:43 · 1508 阅读 · 0 评论 -
数据挖掘的过程
数据挖掘的过程主要有:定义目标获取数据(常用的手段有通过爬虫采集或者下载一些统计网站发布的数据)数据探索数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)挖掘建模(分类、聚类、关联、预测)模型评价与发布...原创 2019-09-26 22:10:25 · 134 阅读 · 0 评论