数据分析与数据挖掘实战视频——学习笔记（六）（数据分析与数据挖掘理论、相关模块安装、相关模块numpy、pandas基本使用、pandas数据导入）

最新推荐文章于 2023-05-29 17:01:13 发布

fhl12395

最新推荐文章于 2023-05-29 17:01:13 发布

阅读量821

点赞数

本文链接：https://blog.csdn.net/fanhl111/article/details/90219429

版权

网址：【数据挖掘】2019年最新python3 数据分析与数据爬虫实战
https://www.bilibili.com/video/av22571713/?p=42

1、快速了解数据分析与数据挖掘

什么是数据分析与数据挖掘

数据分析，就是对已知的数据进行分析，然后提取出一些有价值的信息，比如说统计出平均数，标准差等信息，数据分析的数据量有时可能不会太大，而数据挖掘是指对大量的数据进行分析和挖掘，得到一些未知的有价值的信息等，比如说从网站的用户或用户行为数据中挖掘出用户潜在需求信息，从而对网站进行改善等。数据分析与数据挖掘密不可分，数据挖掘是数据分析的提升。

数据分析一般是获得一些已知的东西，数据量不一定很大
数据挖掘一般是从已知的信息获得一些未知的东西，数据量比较大。
数据分析是数据挖掘的基础

数据分析和数据挖掘能做什么？

数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以，我们可以利用数据挖掘技术实现数据规律的探索。比如说发现窃电用户、发掘用户潜在需求、实现信息的个性化推动、发现疾病与症状甚至疾病与药物之间的规律等

数据挖掘的过程

数据挖掘的过程主要有：
1、定义目标
2、获取数据（常用的方法有爬虫采集或者狭窄一些统计网站发布的数据）
3、数据探索
4、数据预处理（数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】）
5、挖掘建模（分类、聚类、关联、预测）
6、模型评价与发布

2、数据分析与挖掘相关模块简介与安装

numpy模块

如果模块名太长，可以起别名
比如说：import numpy as nm

import numpy
#创建一维数组格式
#numpy.array([元素1，元素2，……，元素n])
x=numpy.array(["a","9","8","2"])
#创建二维数组格式
#numpy.array([[元素1,元素2,…,元素n],[元素1,元素2,…,元素n],…[元素1,元素2,…,元素n]])
y=numpy.array([[3,13,10],[1,12,13],[2,33,14]])
#排序sort()
x.sort()
y.sort()

在这里插入图片描述

#取最大值和最小值
y1=y.max()
y2=y.min()
#切片（按照下标切开，取其中一部分）
#数组[起始下标：最终下标+1]如果起始位置省略不写，说明从开头开始，如果最终下标不屑，说明到最后结束
x1=x[1:3]#1：2
x2=x[:2]#0:1

在这里插入图片描述
numpy模块暂时讲到这里。主要是数组的运算

pandas模块

#pandas模块
import pandas as pda
'''
pandas种常用的数据类型
Series 某一串数字  #index 索引
DataFrame  数据框
'''
a=pda.Series([8,9,2,1])
b=pda.Series([8,9,2,1],index=["one","two","three","four"])
c=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,5,31]])

d=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,5,31]],columns=["one","two","three","four"])#有默认列名和默认行名，columns指定列名

e=pda.DataFrame({
    "one":4,
    "two":[6,2,5],
    "three":list(str(983))
    })

在这里插入图片描述

d.head()#默认取前五行
#d.head(行数)取前某行
d.tail()#默认取后五行
#d.tail(行数)取后某行
d.describe()#统计数据的基本情况
#count 元素个数
#mean平均数
#std 标准差
#min,max最小值,最大值
#25%,50%,75% 每一列的分位数对应的值（四分位数）

#转置
d.T

在这里插入图片描述

3、Python数据导入实战

导入csv数据

#数据导入
import pandas as pda
i=pda.read_csv("E:/FHLAZ/Python37/python37_workspace/csv_document.csv")
i.describe()
i.sort_values(by="23")#按照“23”列的数据排序

在这里插入图片描述

然后我输入京东的数据

import pandas as pda
i=pda.read_csv("E:/FHLAZ/sql_document/jdshop.csv")

在这里插入图片描述
报错了，然后我找到了解决方法https://blog.csdn.net/qq_40431898/article/details/78394889

#数据导入
import pandas as pda
i=pda.read_csv("E:/FHLAZ/sql_document/jdshop.csv",encoding='ANSI')
i.describe()
i.sort_values(by="price")#按照“23”列的数据排序

在这里插入图片描述

很明显成功了，按照升序排序了。
老师的视频里面还有评论数。阅读数和评论数可以进行分析。
比如说用阅读数除以评论数可以获得相对火热程度
比如说有的阅读数低但评论数高可能就不正常。
比如说这些可以和平均数比较，比较这个数据是偏高还是偏差。

导入excel数据

j=pda.read_excel("E:/FHLAZ/Python37/python37_workspace/xls_document.xls")

导入mysql数据库里的数据

import pymysql
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="root",db="hexun")
sql="select * from muhexun"
k=pda.read_sql(sql,conn)
k.describe()

在这里插入图片描述

导入html数据里面的表格

使用pandas,可以直接从html网页中加载对应table表格中的数据，但是在使用read_html()之前，需要先安装html5lib模块与beautifulsoup4模块，接下来通过实战讲解。

cd E:\FHLAZ\Python37\Scripts
pip install html5lib
pip install beautifulsoup4

我在很多地方pip都显示成功了，但是运行失败了，最后我发现，我还是要在python37这个文件夹里面处理。
在这里插入图片描述

import pandas as pda
#l=pda.read_html("E:/FHLAZ/sql_document/4.html")#本地表格网页
m=pda.read_html("https://book.douban.com/")#网上表格网页

在这里插入图片描述

导入文本数据

import pandas as pda
n=pda.read_table("E:/FHLAZ/sql_document/abc.txt")#本地表格text

好像也是导入表格数据，我没有本地的数据，所以就不展示了，之后继续学习。

4、答疑

fhl12395

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数据分析与数据挖掘实战视频——学习笔记（六）（数据分析与数据挖掘理论、相关模块安装、相关模块numpy、pandas基本使用、pandas数据导入）

1、快速了解数据分析与数据挖掘

什么是数据分析与数据挖掘

数据分析和数据挖掘能做什么？

数据挖掘的过程

2、数据分析与挖掘相关模块简介与安装

相关模块简介

相关模块安装与技巧

相关模块基本使用

numpy模块

pandas模块

3、Python数据导入实战

导入csv数据

导入excel数据

导入mysql数据库里的数据

导入html数据里面的表格

导入文本数据

4、答疑