数据分析和数据挖掘

最新推荐文章于 2022-10-24 23:21:10 发布

AppleYRY

最新推荐文章于 2022-10-24 23:21:10 发布

阅读量548

点赞数 3

分类专栏： # 数据分析和数据挖掘

本文链接：https://blog.csdn.net/weixin_42676175/article/details/103264067

版权

数据分析和数据挖掘专栏收录该内容

9 篇文章 1 订阅

订阅专栏

什么是数据分析与数据挖掘

数据分析:对已知数据进行分析，然后提取一些有价值的信息；（比如：统计出平均数；标准差等信息）
数据挖掘：对大量的数据进行分析挖掘，得到一些未知的，有价值的信息等。（比如从网站的用户或用户行为数据中挖掘出用户其潜在需求信息，从而对网站进行改善）—已知到未知
关系：
数据分析和数据挖掘密不可分，数据挖掘是数据分析的提升。

能做什么：

发现有联系事物之间的规律；数据规律的探索；发现窃电用户；发掘用户潜在需求；实现信息的数据化推送；疾病与药物之间的关系·······等等

数据挖掘的过程：

1，定义目标；（分析什么数据，解决什么问题）
2，获取数据；（爬虫采集；下载一些统计网站发布的数据；自有数据）
3，数据探索；（初步研究，发现特征）
4，数据预处理；（数据清洗【去掉脏数据】；数据集成【集中化】；数据变换【规范化】；数据规约【精简】）
5，挖掘建模：（分类；聚类；关联；预测）【算法很重要】
6，模型评价与发布：

注意：

numpy：{
数组运算效率比列表高
数组[起始下标：最终下标+1]
}
panda:
series:一串数据，一行一列；
DataFrame：数据框，多行多列

import pandas as pda 
a=pda.Series([8,9,2,1],index=['one','two','three','four'])
b=pda.DataFrame([[3,4,3,4],[3,4,56,7],[3,3,4,5]],columns=['one','two','three','four'])
c=pda.DataFrame({
    'one':4,
    'two':[6,2,3],
    'three':list(str(982))
})
b.head()    #头部数据，默认前5行
b.tail()    #尾部数据，默认后5行
b.describe()#统计数据（按列统计）
b.T         #转置

}

数据导入：

**导入csv数据：

import pandas as pda
i=pda.read_csv("C:/fhiaw/jgi/ijfgk.csv")
i.describe()
i.sort_values(by="21")	#按照21列排序

导入excel数据：

j=pda.read_excel("F:/fjhzkjf.xls")

导入MySQL数据库里数据：

import pymysql
conn=pymyql.connect(host="127.0.0.1",user="root",passwd="root",db="hexun")
sql="select * from myhexun"
k=pda.read_sql(sql,conn)
d.describe()

导入html数据：
使用pandas,可以直接从html网页中加载对应table表格中的数据，但是在使用read_html()之前，需要先安装html5lib模块与beautifulsoup4模块。

l=pda.read_html("C:/jfkajfajf.html")
m=pda.read_html("https://book.douban.com/")

导入文本数据：**

n=pda.read_table("C:/afhjah.txt")

AppleYRY

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录