数据分析与数据挖掘实战视频——学习笔记(六)(数据分析与数据挖掘理论、相关模块安装、相关模块numpy、pandas基本使用、pandas数据导入)

网址:【数据挖掘】2019年最新python3 数据分析与数据爬虫实战
https://www.bilibili.com/video/av22571713/?p=42

1、快速了解数据分析与数据挖掘

什么是数据分析与数据挖掘

数据分析,就是对已知的数据进行分析,然后提取出一些有价值的信息,比如说统计出平均数,标准差等信息,数据分析的数据量有时可能不会太大,而数据挖掘是指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等,比如说从网站的用户或用户行为数据中挖掘出用户潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。

数据分析一般是获得一些已知的东西,数据量不一定很大
数据挖掘一般是从已知的信息获得一些未知的东西,数据量比较大。
数据分析是数据挖掘的基础

数据分析和数据挖掘能做什么?

数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以,我们可以利用数据挖掘技术实现数据规律的探索。比如说发现窃电用户、发掘用户潜在需求、实现信息的个性化推动、发现疾病与症状甚至疾病与药物之间的规律等

数据挖掘的过程

数据挖掘的过程主要有:
1、定义目标
2、获取数据(常用的方法有爬虫采集或者狭窄一些统计网站发布的数据)
3、数据探索
4、数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
5、挖掘建模(分类、聚类、关联、预测)
6、模型评价与发布

2、数据分析与挖掘相关模块简介与安装

相关模块简介

1、numpy 可以高效处理数据、提供数组支持、很多模块都依赖他,比如说pandas\scipy\matplotlib都依赖他,所以这个模块是基础。
numpy是其他模块的基础,python不提供数组支持,一般是使用list,而numpy提供数组支持。
2、pandas 我们课程后续用的最多的一个模块,主要是进行数据探索和数据分析。
3、matplotlib 作图模块,解决可视化问题。
4、scipy 主要进行数值计算,同时支持举证运算,并提供了很多高等数据处理功能,比如说积分、傅里叶变换、微分方程求解等。
5、statsmodels 这个模块主要用于统计分析
6、gensim 这个模块主要用于文本挖掘
7、sklearn、keras前者机器学习、后者深度学习。

相关模块安装与技巧

模块安装的顺序与方式建议如下
1、numpy、mkl(下载安装)
2、pandas(网络安装)
3、matplotlib(网络安装)
4、scipy(下载安装)
5、statsmodels(网络安装)
6、Gensim(网络安装)、
这个模块安装我在别的地方写过,
网址:https://blog.csdn.net/fanhl111/article/details/88097091
网址:https://blog.csdn.net/fanhl111/article/details/88182335
可以参考这两个网址,下载安装是指去网址下载下来安装,网络安装是指在cmd里面用pip install 安装。
第三方库下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

cd E:\FHLAZ\Python37\Anaconda3\Scripts
pip install numpy-1.16.2+mkl-cp37-cp37m-win_amd64.whl
pip install pandas
pip install matplotlib
pip install scipy-1.3.0rc1-cp37-cp37m-win_amd64.whl
pip install statsmodels
pip install gensim
相关模块基本使用
numpy模块

如果模块名太长,可以起别名
比如说:import numpy as nm

import numpy
#创建一维数组格式
#numpy.array([元素1,元素2,……,元素n])
x=numpy.array(["a","9","8","2"])
#创建二维数组格式
#numpy.array([[元素1,元素2,…,元素n],[元素1,元素2,…,元素n],…[元素1,元素2,…,元素n]])
y=numpy.array([[3,13,10],[1,12,13],[2,33,14]])
#排序sort()
x.sort()
y.sort()

在这里插入图片描述

#取最大值和最小值
y1=y.max()
y2=y.min()
#切片(按照下标切开,取其中一部分)
#数组[起始下标:最终下标+1]如果起始位置省略不写,说明从开头开始,如果最终下标不屑,说明到最后结束
x1=x[1:3]#1:2
x2=x[:2]#0:1

在这里插入图片描述
numpy模块暂时讲到这里。主要是数组的运算

pandas模块
#pandas模块
import pandas as pda
'''
pandas种常用的数据类型
Series 某一串数字  #index 索引
DataFrame  数据框
'''
a=pda.Series([8,9,2,1])
b=pda.Series([8,9,2,1],index=["one","two","three","four"])
c=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,5,31]])

d=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,5,31]],columns=["one","two","three","four"])#有默认列名和默认行名,columns指定列名

e=pda.DataFrame({
    "one":4,
    "two":[6,2,5],
    "three":list(str(983))
    })

在这里插入图片描述

d.head()#默认取前五行
#d.head(行数)取前某行
d.tail()#默认取后五行
#d.tail(行数)取后某行
d.describe()#统计数据的基本情况
#count 元素个数
#mean平均数
#std 标准差
#min,max最小值,最大值
#25%,50%,75% 每一列的分位数对应的值(四分位数)

#转置
d.T

在这里插入图片描述

3、Python数据导入实战

导入csv数据
#数据导入
import pandas as pda
i=pda.read_csv("E:/FHLAZ/Python37/python37_workspace/csv_document.csv")
i.describe()
i.sort_values(by="23")#按照“23”列的数据排序

在这里插入图片描述

然后我输入京东的数据

import pandas as pda
i=pda.read_csv("E:/FHLAZ/sql_document/jdshop.csv")

在这里插入图片描述
报错了,然后我找到了解决方法https://blog.csdn.net/qq_40431898/article/details/78394889

#数据导入
import pandas as pda
i=pda.read_csv("E:/FHLAZ/sql_document/jdshop.csv",encoding='ANSI')
i.describe()
i.sort_values(by="price")#按照“23”列的数据排序

在这里插入图片描述
在这里插入图片描述
很明显成功了,按照升序排序了。
老师的视频里面还有评论数。阅读数和评论数可以进行分析。
比如说用阅读数除以评论数 可以获得相对火热程度
比如说有的阅读数低 但评论数高 可能就不正常。
比如说这些可以和平均数比较,比较这个数据是偏高还是偏差。

导入excel数据
j=pda.read_excel("E:/FHLAZ/Python37/python37_workspace/xls_document.xls")

导入mysql数据库里的数据
import pymysql
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="root",db="hexun")
sql="select * from muhexun"
k=pda.read_sql(sql,conn)
k.describe()

在这里插入图片描述

导入html数据里面的表格

使用pandas,可以直接从html网页中加载对应table表格中的数据,但是在使用read_html()之前,需要先安装html5lib模块与beautifulsoup4模块,接下来通过实战讲解。

cd E:\FHLAZ\Python37\Scripts
pip install html5lib
pip install beautifulsoup4

我在很多地方pip都显示成功了,但是运行失败了,最后我发现,我还是要在python37这个文件夹里面处理。
在这里插入图片描述

import pandas as pda
#l=pda.read_html("E:/FHLAZ/sql_document/4.html")#本地表格网页
m=pda.read_html("https://book.douban.com/")#网上表格网页

在这里插入图片描述

导入文本数据
import pandas as pda
n=pda.read_table("E:/FHLAZ/sql_document/abc.txt")#本地表格text

好像也是导入表格数据,我没有本地的数据,所以就不展示了,之后继续学习。

4、答疑

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值